足球角球時間:以 Frailty Model 處理同場內相關性
- 2小时前
- 讀畢需時 4 分鐘
職業足球賽事中,corner kick(角球)既是攻勢延續的常見結果,亦為博彩市場中「角球數量」「首個角球時間」等產品的基礎隨機量。Isaacs、Hu、Peng 與 Swartz(2026)之預印本 arXiv:2602.22684 延續 Peng、Hu 與 Swartz(2024)對角球出現時間的 event history 分析,在原有 finite mixture 與 right censoring 框架之上,引入 frailty 以刻劃「同一支球隊在同一場比賽內」多次角球之間的相關性,並以 Monte Carlo Expectation Maximization(MCEM) 估計參數。下文概述問題設定、模型直觀、以及以 2019 Chinese Super League(CSL) 數據(233 場、2314 個角球事件)為例的主要發現。
一、為何角球時間難用單一分布描述?
角球之間的間隔並非獨立同分布:防守方將球碰出底線後,攻方可獲角球;若開出角球後球再被擋出底線,下一個角球往往在極短時間內出現。Peng 等(2024)已指出此「連鎖角球」現象,並以 mixture 區分 Type 1(前一事件並非角球)與 Type 2(前一事件為角球);其中 Type 2 再細分為間隔極短之 Type 2-S 與間隔較長之 Type 2-L。此外,入球、半場或全場結束會中斷觀測,故觀察到的是 min(角球時間, 設限時間),屬 right-censored survival data。
上述前作假設各次角球時間彼此獨立。實務上,同一場內戰術、人員與當日狀態會令「該隊該場」的角球節奏呈現內部相關;忽略相關性可能令標準誤與顯著性判斷偏離實際。新文獻以 game-specific frailty W_ij(隸屬第 i 隊第 j 場)乘入 Type 1 與 Type 2-L 之 hazard,使同一場內角球風險可同步升高或降低,而 Type 2-S 仍保留短間隔專用之 Weibull 型 hazard。
二、模型要旨(直觀)
設限:僅觀測 Y = min(T, C) 及是否觀測到角球之 δ;設限為 non-informative 之前提下推論。
Type 2-L 之潛在標示 η:當某次設限發生時,未必能從公開 event data 分辨該段本質屬 Type 2-L 與否;文中視 η 為潛在變量,並以 logistic regression 連結共變量。
Frailty:W_ij 獨立抽自某分布(文中詳述 gamma frailty 特例及 MCEM);在 W_ij ≡ 1 時退化為 Peng 等(2024)之獨立模型。
MCEM 用於邊際似然中含潛在變量與 frailty 時之 maximum likelihood estimation(MLE),屬 survival analysis 與 missing data 文獻中常見計算策略。
三、數據與共變量(2019 CSL 實證)
文中以 2019 CSL 之事件史為例,共變量包括(節略):是否下半場、是否主隊獲得該角球、score differential、red card differential、以及該隊之 European decimal odds 等。在 frailty 模型下,主場對 Type 1/2-L 之 hazard 呈顯著正向(與「主隊較易獲角球」之敘述一致);領先分差則呈顯著負向(領先時節奏較保守、角球 hazard 下降)。對 Type 2-L 之發生概率,主場、紅牌差 與 賠率 在 frailty 設定下亦達顯著,作者指出相對於獨立假設模型,frailty 可能提高檢定 power。Frailty 方差估計約 0.247,顯示場次層面之異質性具統計意義。
MCEM 最後一輪模擬中,約 94.4% 的 η 為 1(代表長間隔之 Type 2-L),呼應「僅約二十分之一角球會直接『串』出下一個角球」之量級。Likelihood ratio test 相對獨立模型之統計量約 41.48(多一個 θ_w 參數、χ²(1)),p-value < 0.0001;BIC 亦較獨立模型為低,顯示在配適與簡潔度之權衡上 frailty 模型較佳。
四、應用與延伸
作者於討論中指出:同一場內主客隊角球若存在競爭或交互,可考慮 competing risks;跨場次相關則可考慮 multilevel model。博彩方面,角球 over/under 與「首個角球時間」等市場日增,可在此類 generative 時間模型基礎上,延伸 market efficiency 或 pricing 分析(文中引用 Palsson & Laurens(2023) 等方向)。
五、小結
arXiv:2602.22684 之貢獻在於:在角球時間的 mixture survival 架構中,以 frailty 明確納入「同隊同場」相關性,並以 MCEM 完成推估;於 2019 CSL 上,相對獨立假設有顯著改善,且部分共變量效果與球賽常識一致。對從事 sports analytics、survival analysis 或 quantitative trading 於角球產品者,此文提供可複製的統計語言與實證範本。
Reference
R. L. Isaacs, X. J. Hu, K. K. Peng, T. B. Swartz. Learning about Corner Kicks in Soccer by Analysis of Event Times Using a Frailty Model. arXiv:2602.22684v1 [stat.ME], 26 Feb 2026. https://arxiv.org/abs/2602.22684
K. Peng, J. Hu, T. Swartz. On the time of corner kicks in soccer: an analysis of event history data. Computational Statistics (2024).
J. D. Kalbfleisch & R. L. Prentice. The Statistical Analysis of Failure Time Data. Wiley (2nd ed., 2011).
J. W. Vaupel, K. G. Manton & E. Stallard. The impact of heterogeneity in individual frailty on the dynamics of mortality. Demography, 16(3), 439–454 (1979).
G. J. McLachlan, S. X. Lee & S. I. Rathnayake. Finite mixture models. Annual Review of Statistics and Its Application, 6, 355–378 (2019).
T. A. Balan & H. Putter. A tutorial on frailty models. Statistical Methods in Medical Research, 29(2020).
M. J. Dixon & S. G. Coles. Modelling association football scores and inefficiencies in the football betting market. JRSS-C, 46(2), 265–280 (1997).
