Beyond xG:將「會唔會起腳」納入同一機率框架嘅 xG+
- 15小时前
- 讀畢需時 3 分鐘
傳統 Expected Goals(xG) 只會喺「已經發生咗射門」之後,評估該腳波入網機率;問題係,足球比賽有大量高威脅片段最終冇形成射門,而呢啲時刻喺 xG 會變成 0。Pipping-Gamón、Feng 同 Sabin(2026)喺 arXiv:2512.00203v2 提出 xG+:先估「下一秒會唔會射門」(xS),再估「如果射門,入網機率幾多」(xG),將兩者合併成同一框架,並提供 possession 層面嘅聚合方式,避免傳統 xG 喺連續補射場景出現不合理累加。
一、傳統 xG 的兩個核心盲點
Conditioning on shots:只評已起腳事件。
例如高質傳中、近門混戰、最後一刻被解圍等,雖然實際威脅極高,但無射門就無 xG。
獨立累加假設:同一 possession 內多次近距補射直接相加,可能出現總和 > 1;但一個 possession 最多只可入一球。
作者用歐聯與美職案例示範:低質遠射可有小 xG,但某些「差一步就埋門」場面反而被傳統 xG 忽略;另一例係短時間四連射,單次 xG 相加可達 1 以上,與比賽邏輯不符。
二、xG+ 定義
喺每一幀(frame)/ 下一秒窗口,定義:
xS_t = P_t(Shot):下一秒形成射門機率
xG_t = P_t(Goal | Shot):若起腳,入網機率
則
xG+_t = xS_t · xG_t
若要聚合成整個 possession 嘅入球機率,論文用「至少入一球」形式:
xG+_poss = 1 − Π_t (1 − xG+_t)
呢個設計天然將 possession 上限壓喺 1,較符合足球事件結構。
三、數據與建模(節錄)
作者使用 Gradient Sports 提供之 EPL 2022–23 至 2024–25 追蹤+事件資料(30fps),針對進攻三區且控球清晰片段做特徵工程,包括:
球與球門距離、角度、速度、高度
球到最近攻守球員(不含龍門)嘅相對距離與位置
龍門位置與 openGoal(門框可視/空間開放程度 proxy)
模型方面,分別訓練兩個 XGBoost:一個做 xS,一個做 xG;並以 5-fold cross-validation、log loss 作主要比較。
四、結果訊號(依論文報告)
兩個任務上,XGBoost 均優於多組 logistic regression baseline。
對 xS(會否起腳)改善更明顯,顯示「射門發生機率」本身可由追蹤脈絡有效學習。
特徵重要度上,球門距離係主導變量;openGoal 對 xG 影響大過對 xS,符合「空門視野主要影響終結品質」嘅直覺。
partial dependence 圖亦展示:距離增大時 xS/xG 下降;球速對 xS 與 xG 可呈相反關係(快節奏易創造起腳,但未必保證高質射門)。
五、分析含意
對球隊分析、球員評估、以及下游如 xT / OBV、rating、預測模型而言,xG+ 提供一個更接近「攻勢生成機制」嘅中介層:唔只評射門品質,亦評「由機會到射門」呢步是否成功。此做法可減少只睇已起腳樣本帶來嘅 selection 問題,並喺 possession 聚合時保留機率一致性。
Reference
J. Pipping-Gamón, T. Feng, P. Sabin. Beyond Expected Goals: A Probabilistic Framework for Shot Occurrences in Soccer. arXiv:2512.00203v2 [stat.AP], 26 Jan 2026. https://arxiv.org/abs/2512.00203
Gradient Sports tracking/event data(論文使用資料來源,細節見原文方法章節)。
相關背景:xG、xT/OBV、足球評分模型之文獻,見原文 Introduction 與 References。
完整特徵定義與跨賽季 rolling-origin 驗證設定,以 PDF 正文及附錄為準。




