NBA 老將表現衰退：用 Autoencoder 分群配合 LSTM 預測生涯曲線

2天前
讀畢需時 4 分鐘

已更新：7小时前

NBA 球員過咗巔峰年齡之後，表現下滑並唔係一條人人相同嘅直線：超級球星可能靠技術、球權同適應能力延長高峰，角色球員則可能更受上場時間、定位轉變同效率波動影響。Yao、Wang、Lai 與 Chen 喺 arXiv:2509.25858v1 提出一個兩階段框架，先用 autoencoder + K-means 將球員生涯早段分成不同趨勢類型，再用 LSTM 預測 29 至 31 歲期間嘅 Box Plus/Minus (BPM)。

呢篇 paper 的重點唔係單純「用深度學習預測 NBA 數據」，而係指出：如果先承認球員類型有差異，再將類型訊號放入時間序列模型，預測老化衰退會比一個統一 LSTM 更穩定。

本文重點

作者把 NBA 生涯趨勢預測拆成兩件事：第一，從 22 至 28 歲嘅多維表現序列學出球員類型；第二，利用該類型連同歷史表現，預測 29、30、31 歲嘅 BPM。這個設計對 sports analytics 有實用含意，因為球隊真正關心嘅往往唔只係下一季分數，而係球員進入後巔峰期後，風險與下滑速度是否仍可管理。

實驗結果顯示，加入分群訊號後，模型在測試集達到 MAE = 1.42、R² = 0.55，優於 random forest、GRU、BiLSTM、standard LSTM 等比較方法。尤其相對於不使用分群的 standard LSTM，測試 MAE 由 1.84 降至 1.42，R² 由 0.19 升至 0.55。

一、數據與預測任務

論文使用 1995 至 2023 年 NBA seasonal data，涵蓋每位球員每季 48 個數值特徵，包括傳統 box score 指標如 PTS、REB、AST，以及進階指標如 BPM、PER、True Shooting Percentage (TS%)。

作者選出至少有完整 22 至 31 歲生涯序列嘅球員，將 22 至 28 歲視為輸入期，29 至 31 歲嘅 BPM 視為預測目標。換句話講，模型要回答嘅問題係：如果只看一名球員從早期到巔峰前後嘅七年軌跡，能否估計佢進入後巔峰期三年嘅整體影響力？

訓練與測試方面，論文提到共有 177 名具完整趨勢的球員作為主要資料，其中 141 名用於訓練，36 名用於測試，並確保訓練集與測試集沒有球員重疊，以避免資料洩漏。

二、第一階段：用 Autoencoder 學出生涯型態

每位球員的輸入序列可視為 7 年乘 48 個特徵，即 336 維資料。作者先用 autoencoder 把高維表現軌跡壓縮成 64 維 embedding，再用 K-means 做分群。

這一步的直覺是：直接對原始特徵做分群容易受維度與噪聲影響；先經過 autoencoder，模型可學到較濃縮的「生涯形狀」表示，例如穩定成長、早熟後下滑、巔峰延長、或低效率波動。K 值方面，作者用 Silhouette score 選出 K = 2，雖然分數只有 0.16，顯示群組界線並不算非常清晰，但這個弱分群仍為後續預測帶來改善。

三、第二階段：將分群訊號餵入 LSTM

第二階段的 LSTM 有兩類輸入：一類是 22 至 28 歲的 48 維時間序列，另一類是第一階段得到的 cluster assignment，經 one-hot encoding 後與 LSTM 的時間特徵結合。

LSTM 負責捕捉個別球員表現隨年齡演變的時間模式；cluster 則提供「這名球員大概屬於哪種生涯型態」的全局訊號。最後模型輸出三個 BPM 預測值，分別對應 29、30、31 歲。

這個架構的優點係簡潔：它沒有把所有球員硬塞入同一條平均老化曲線，而是容許模型先辨認型態，再做個別時間序列預測。對球員續約、交易估值、以及老將風險管理而言，這比只看單季平均表現更接近實務決策。

四、結果訊號

在整體模型比較中，作者報告 proposed method 的測試表現為 MAE = 1.42、R² = 0.55。傳統機器學習模型中，random forest 表現最好，測試 MAE = 1.48、R² = 0.49；深度學習 baseline 中，GRU 的 MAE = 1.82、R² = 0.23，standard LSTM 則為 MAE = 1.84、R² = 0.19。

這組結果值得注意，因為 proposed method 並非只靠更深的神經網絡取勝，而是靠前置分群改善 LSTM 對不同老化路徑的辨識。相對 standard LSTM，論文稱 MAE 降低 22.83%，R² 則有明顯提升。

作者亦把球員分為 star player 與 regular player。相對 standard LSTM，proposed method 在 star player 類別的 MAE 由 4.83 降至 1.78，在 regular player 類別由 1.96 降至 1.45。這支持一個常見但難量化的觀察：球星的老化曲線更非線性，單一平均模型容易失準。

五、幾個需要留意的限制

第一，樣本數相對細。完整覆蓋 22 至 31 歲的 NBA 生涯序列，本身就會排除大量短生涯或資料不完整的球員，因此模型較接近「能留在聯盟足夠久」的球員群體，而未必代表所有新秀或邊緣球員。

第二，K-means 的 Silhouette score 只有 0.16，代表兩個 cluster 的分隔度有限。分群有助預測，並不等於它一定對應清楚、穩定、可命名的籃球角色類型；如果要用於球隊決策，仍需要更多可解釋性檢查。

第三，BPM 是綜合性指標，但它仍然受球隊環境、角色、上場時間、傷病、教練系統等因素影響。若未來加入追蹤數據、傷病記錄、薪資與球隊戰術背景，可能更能區分「能力衰退」與「角色改變」。

六、小結

arXiv:2509.25858v1 提供一個清楚的 sports analytics pipeline：先把球員早期生涯表現壓縮成趨勢類型，再用 LSTM 預測後巔峰期 BPM。它的價值在於提醒我們，老化衰退不是單一平均曲線；對 NBA 球員而言，生涯型態本身就是預測訊號。

對做球員估值、陣容規劃、或 fantasy / betting 相關模型的人來講，這篇 paper 可作為一個簡潔起點：與其只把年齡當成一個特徵，不如先問「這名球員屬於哪一種生涯軌跡」。

Reference

Y.-c. Yao, J. Wang, Y.-c. Lai, L. C.-l. Chen. Aging Decline in Basketball Career Trend Prediction Based on Machine Learning and LSTM Model. arXiv:2509.25858v1, 2025. https://arxiv.org/abs/2509.25858
N. Vaci, D. Cocic, B. Gula, M. Bilalic. Large data and Bayesian modeling-aging curves of NBA players. Behavior Research Methods, 2019.
B. F. Aas. NBA history | seasonal data 1995-2023. Kaggle dataset, 2023.