top of page

NBA 老將表現衰退:用 Autoencoder 分群配合 LSTM 預測生涯曲線

  • 2天前
  • 讀畢需時 4 分鐘

已更新:7小时前

NBA 球員過咗巔峰年齡之後,表現下滑並唔係一條人人相同嘅直線:超級球星可能靠技術、球權同適應能力延長高峰,角色球員則可能更受上場時間、定位轉變同效率波動影響。Yao、Wang、Lai 與 Chen 喺 arXiv:2509.25858v1 提出一個兩階段框架,先用 autoencoder + K-means 將球員生涯早段分成不同趨勢類型,再用 LSTM 預測 29 至 31 歲期間嘅 Box Plus/Minus (BPM)

呢篇 paper 的重點唔係單純「用深度學習預測 NBA 數據」,而係指出:如果先承認球員類型有差異,再將類型訊號放入時間序列模型,預測老化衰退會比一個統一 LSTM 更穩定。


本文重點

作者把 NBA 生涯趨勢預測拆成兩件事:第一,從 22 至 28 歲嘅多維表現序列學出球員類型;第二,利用該類型連同歷史表現,預測 29、30、31 歲嘅 BPM。這個設計對 sports analytics 有實用含意,因為球隊真正關心嘅往往唔只係下一季分數,而係球員進入後巔峰期後,風險與下滑速度是否仍可管理。

實驗結果顯示,加入分群訊號後,模型在測試集達到 MAE = 1.42R² = 0.55,優於 random forest、GRU、BiLSTM、standard LSTM 等比較方法。尤其相對於不使用分群的 standard LSTM,測試 MAE 由 1.84 降至 1.42,R² 由 0.19 升至 0.55。


一、數據與預測任務

論文使用 1995 至 2023 年 NBA seasonal data,涵蓋每位球員每季 48 個數值特徵,包括傳統 box score 指標如 PTSREBAST,以及進階指標如 BPMPERTrue Shooting Percentage (TS%)

作者選出至少有完整 22 至 31 歲生涯序列嘅球員,將 22 至 28 歲視為輸入期,29 至 31 歲嘅 BPM 視為預測目標。換句話講,模型要回答嘅問題係:如果只看一名球員從早期到巔峰前後嘅七年軌跡,能否估計佢進入後巔峰期三年嘅整體影響力?

訓練與測試方面,論文提到共有 177 名具完整趨勢的球員作為主要資料,其中 141 名用於訓練,36 名用於測試,並確保訓練集與測試集沒有球員重疊,以避免資料洩漏。


二、第一階段:用 Autoencoder 學出生涯型態

每位球員的輸入序列可視為 7 年乘 48 個特徵,即 336 維資料。作者先用 autoencoder 把高維表現軌跡壓縮成 64 維 embedding,再用 K-means 做分群。

這一步的直覺是:直接對原始特徵做分群容易受維度與噪聲影響;先經過 autoencoder,模型可學到較濃縮的「生涯形狀」表示,例如穩定成長、早熟後下滑、巔峰延長、或低效率波動。K 值方面,作者用 Silhouette score 選出 K = 2,雖然分數只有 0.16,顯示群組界線並不算非常清晰,但這個弱分群仍為後續預測帶來改善。


三、第二階段:將分群訊號餵入 LSTM

第二階段的 LSTM 有兩類輸入:一類是 22 至 28 歲的 48 維時間序列,另一類是第一階段得到的 cluster assignment,經 one-hot encoding 後與 LSTM 的時間特徵結合。

LSTM 負責捕捉個別球員表現隨年齡演變的時間模式;cluster 則提供「這名球員大概屬於哪種生涯型態」的全局訊號。最後模型輸出三個 BPM 預測值,分別對應 29、30、31 歲。

這個架構的優點係簡潔:它沒有把所有球員硬塞入同一條平均老化曲線,而是容許模型先辨認型態,再做個別時間序列預測。對球員續約、交易估值、以及老將風險管理而言,這比只看單季平均表現更接近實務決策。


四、結果訊號

在整體模型比較中,作者報告 proposed method 的測試表現為 MAE = 1.42R² = 0.55。傳統機器學習模型中,random forest 表現最好,測試 MAE = 1.48R² = 0.49;深度學習 baseline 中,GRU 的 MAE = 1.82R² = 0.23,standard LSTM 則為 MAE = 1.84R² = 0.19

這組結果值得注意,因為 proposed method 並非只靠更深的神經網絡取勝,而是靠前置分群改善 LSTM 對不同老化路徑的辨識。相對 standard LSTM,論文稱 MAE 降低 22.83%,R² 則有明顯提升。

作者亦把球員分為 star player 與 regular player。相對 standard LSTM,proposed method 在 star player 類別的 MAE 由 4.83 降至 1.78,在 regular player 類別由 1.96 降至 1.45。這支持一個常見但難量化的觀察:球星的老化曲線更非線性,單一平均模型容易失準。


五、幾個需要留意的限制

第一,樣本數相對細。完整覆蓋 22 至 31 歲的 NBA 生涯序列,本身就會排除大量短生涯或資料不完整的球員,因此模型較接近「能留在聯盟足夠久」的球員群體,而未必代表所有新秀或邊緣球員。

第二,K-means 的 Silhouette score 只有 0.16,代表兩個 cluster 的分隔度有限。分群有助預測,並不等於它一定對應清楚、穩定、可命名的籃球角色類型;如果要用於球隊決策,仍需要更多可解釋性檢查。

第三,BPM 是綜合性指標,但它仍然受球隊環境、角色、上場時間、傷病、教練系統等因素影響。若未來加入追蹤數據、傷病記錄、薪資與球隊戰術背景,可能更能區分「能力衰退」與「角色改變」。


六、小結

arXiv:2509.25858v1 提供一個清楚的 sports analytics pipeline:先把球員早期生涯表現壓縮成趨勢類型,再用 LSTM 預測後巔峰期 BPM。它的價值在於提醒我們,老化衰退不是單一平均曲線;對 NBA 球員而言,生涯型態本身就是預測訊號。

對做球員估值、陣容規劃、或 fantasy / betting 相關模型的人來講,這篇 paper 可作為一個簡潔起點:與其只把年齡當成一個特徵,不如先問「這名球員屬於哪一種生涯軌跡」。


Reference

  1. Y.-c. Yao, J. Wang, Y.-c. Lai, L. C.-l. Chen. Aging Decline in Basketball Career Trend Prediction Based on Machine Learning and LSTM Model. arXiv:2509.25858v1, 2025. https://arxiv.org/abs/2509.25858

  2. N. Vaci, D. Cocic, B. Gula, M. Bilalic. Large data and Bayesian modeling-aging curves of NBA players. Behavior Research Methods, 2019.

  3. B. F. Aas. NBA history | seasonal data 1995-2023. Kaggle dataset, 2023.


原文 Paper



bottom of page