top of page

足球角球時間:以 Frailty Model 處理同場內相關性

  • 2小时前
  • 讀畢需時 4 分鐘

職業足球賽事中,corner kick(角球)既是攻勢延續的常見結果,亦為博彩市場中「角球數量」「首個角球時間」等產品的基礎隨機量。Isaacs、Hu、Peng 與 Swartz(2026)之預印本 arXiv:2602.22684 延續 Peng、Hu 與 Swartz(2024)對角球出現時間的 event history 分析,在原有 finite mixtureright censoring 框架之上,引入 frailty 以刻劃「同一支球隊在同一場比賽內」多次角球之間的相關性,並以 Monte Carlo Expectation Maximization(MCEM) 估計參數。下文概述問題設定、模型直觀、以及以 2019 Chinese Super League(CSL) 數據(233 場、2314 個角球事件)為例的主要發現。

一、為何角球時間難用單一分布描述?

角球之間的間隔並非獨立同分布:防守方將球碰出底線後,攻方可獲角球;若開出角球後球再被擋出底線,下一個角球往往在極短時間內出現。Peng 等(2024)已指出此「連鎖角球」現象,並以 mixture 區分 Type 1(前一事件並非角球)與 Type 2(前一事件為角球);其中 Type 2 再細分為間隔極短之 Type 2-S 與間隔較長之 Type 2-L。此外,入球、半場或全場結束會中斷觀測,故觀察到的是 min(角球時間, 設限時間),屬 right-censored survival data

上述前作假設各次角球時間彼此獨立。實務上,同一場內戰術、人員與當日狀態會令「該隊該場」的角球節奏呈現內部相關;忽略相關性可能令標準誤與顯著性判斷偏離實際。新文獻以 game-specific frailty W_ij(隸屬第 i 隊第 j 場)乘入 Type 1Type 2-Lhazard,使同一場內角球風險可同步升高或降低,而 Type 2-S 仍保留短間隔專用之 Weibull 型 hazard。

二、模型要旨(直觀)

  • 設限:僅觀測 Y = min(T, C) 及是否觀測到角球之 δ;設限為 non-informative 之前提下推論。

  • Type 2-L 之潛在標示 η:當某次設限發生時,未必能從公開 event data 分辨該段本質屬 Type 2-L 與否;文中視 η 為潛在變量,並以 logistic regression 連結共變量。

  • FrailtyW_ij 獨立抽自某分布(文中詳述 gamma frailty 特例及 MCEM);在 W_ij ≡ 1 時退化為 Peng 等(2024)之獨立模型。

MCEM 用於邊際似然中含潛在變量與 frailty 時之 maximum likelihood estimation(MLE),屬 survival analysismissing data 文獻中常見計算策略。

三、數據與共變量(2019 CSL 實證)

文中以 2019 CSL 之事件史為例,共變量包括(節略):是否下半場、是否主隊獲得該角球、score differentialred card differential、以及該隊之 European decimal odds 等。在 frailty 模型下,主場Type 1/2-L 之 hazard 呈顯著正向(與「主隊較易獲角球」之敘述一致);領先分差則呈顯著負向(領先時節奏較保守、角球 hazard 下降)。對 Type 2-L 之發生概率,主場紅牌差賠率frailty 設定下亦達顯著,作者指出相對於獨立假設模型,frailty 可能提高檢定 powerFrailty 方差估計約 0.247,顯示場次層面之異質性具統計意義。

MCEM 最後一輪模擬中,約 94.4%η 為 1(代表長間隔之 Type 2-L),呼應「僅約二十分之一角球會直接『串』出下一個角球」之量級。Likelihood ratio test 相對獨立模型之統計量約 41.48(多一個 θ_w 參數、χ²(1)),p-value < 0.0001BIC 亦較獨立模型為低,顯示在配適與簡潔度之權衡上 frailty 模型較佳。

四、應用與延伸

作者於討論中指出:同一場內主客隊角球若存在競爭或交互,可考慮 competing risks;跨場次相關則可考慮 multilevel model。博彩方面,角球 over/under 與「首個角球時間」等市場日增,可在此類 generative 時間模型基礎上,延伸 market efficiencypricing 分析(文中引用 Palsson & Laurens(2023) 等方向)。

五、小結

arXiv:2602.22684 之貢獻在於:在角球時間的 mixture survival 架構中,以 frailty 明確納入「同隊同場」相關性,並以 MCEM 完成推估;於 2019 CSL 上,相對獨立假設有顯著改善,且部分共變量效果與球賽常識一致。對從事 sports analyticssurvival analysisquantitative trading 於角球產品者,此文提供可複製的統計語言與實證範本。

Reference

  1. R. L. Isaacs, X. J. Hu, K. K. Peng, T. B. Swartz. Learning about Corner Kicks in Soccer by Analysis of Event Times Using a Frailty Model. arXiv:2602.22684v1 [stat.ME], 26 Feb 2026. https://arxiv.org/abs/2602.22684

  2. K. Peng, J. Hu, T. Swartz. On the time of corner kicks in soccer: an analysis of event history data. Computational Statistics (2024).

  3. J. D. Kalbfleisch & R. L. Prentice. The Statistical Analysis of Failure Time Data. Wiley (2nd ed., 2011).

  4. J. W. Vaupel, K. G. Manton & E. Stallard. The impact of heterogeneity in individual frailty on the dynamics of mortality. Demography, 16(3), 439–454 (1979).

  5. G. J. McLachlan, S. X. Lee & S. I. Rathnayake. Finite mixture models. Annual Review of Statistics and Its Application, 6, 355–378 (2019).

  6. T. A. Balan & H. Putter. A tutorial on frailty models. Statistical Methods in Medical Research, 29(2020).

  7. M. J. Dixon & S. G. Coles. Modelling association football scores and inefficiencies in the football betting market. JRSS-C, 46(2), 265–280 (1997).

相關文章

查看全部
AutoStan:以 NLPD 與 MCMC 診斷驅動的 Stan 貝葉斯模型自主改進

貝葉斯建模在概念上簡潔:先寫下生成機制與先驗,再按觀測資料更新信念。然而實務上,即使已採用 **Stan** 與 **MCMC**,分析人員仍須反覆處理 **divergence**、**R-hat**、**effective sample size(ESS)**、重新參數化與先驗調校。**AutoStan**(Dürr, 2026)提出一套極簡框架:讓 **CLI coding agent**

 
 
bottom of page