用空間控制評估足球 Back Four 防線
- 5月5日
- 讀畢需時 5 分鐘
已更新:5月6日
足球數據分析經常偏重進攻:xG、xT、progressive pass、shot creation。防守端就難好多,因為成功防守往往不是一個 tackle 或 interception,而是一整條防線在幾秒內保持距離、壓縮空間、控制禁區前沿,令對手無法進入高威脅區域。
Dash、Ide、Umemoto、Amino 與 Fujii 喺 arXiv:2511.06191v1 研究 back-four defensive line 在失去球權後的防守轉換。作者用 LaLiga 2023/24 的 SkillCorner tracking data 與 StatsBomb event data,分析 FC Barcelona 與 Real Madrid CF 在 negative transition 後的防守組織,並建立一組可解釋的 spatio-temporal indicators 來預測防守成功與否。
本文重點
這篇 paper 的焦點不是單一防守動作,而是「四人防線作為一個 unit」的協調。作者提出五個手工設計指標:Space Score、Stretch Index、Pressure Index、Absolute Defensive Line Height、以及 Relative Line Height to Ball。
在 2,413 條防守轉換序列中,two-way ANOVA 顯示 team、outcome 及其 interaction 對多個指標有顯著影響,其中 relative line height 與防守成功關聯最強。XGBoost 在 Barcelona 與 Real Madrid 的 team-specific 模型上分別取得 ROC AUC = 0.724 與 0.698,而 Space Score 和 Relative Line Height 是最重要的 predictive features。
一、為何 Back Four 難以量化
四人防線的價值不一定出現在事件表內。一次成功的防守轉換,可能是中堅和閘位同步退守,保持與皮球的垂直距離,壓住禁區前沿空間,迫使對手橫傳或回傳。這些行為未必會產生 tackle 或 clearance,但對阻止入禁區和射門很重要。
傳統防守 metrics 多數記錄個別事件,例如 tackles、interceptions、blocks。這些指標容易理解,但捕捉不到 collective behavior:防線有沒有過深?有沒有被拉闊?球與防線距離是否失衡?高價值 zone 是否被控制?
作者因此把問題轉成一個 spatio-temporal evaluation:在失去球權後,back four 的位置、緊湊度、壓迫和空間控制能否預測這次 transition 最後成功還是失敗。
二、資料與防守序列定義
研究使用兩類同步資料:SkillCorner 提供的 25Hz tracking data,包括 22 名球員與皮球位置及速度;StatsBomb 提供 event data,包括 passes、duels、tackles、pressures 等。作者使用 ETSY 演算法做 event-tracking synchronization,把事件對齊到最合理的 tracking frame。
資料涵蓋 LaLiga 2023/24 中 Barcelona 與 Real Madrid 的 73 場比賽。防守序列聚焦於 negative transitions:球隊失去控球後,對手立即進攻時的防線反應。作者只保留 defensive third 內、追蹤資料完整、且非 restart 造成中斷的序列。
每條序列標記為 success 或 failure。若對手後續進入禁區、射門或入球,視為 failure;其他情況視為 success。最終資料包含 2,413 條高質素 transition sequences,其中 1,434 條失敗、979 條成功。
三、五個可解釋防守指標
Stretch Index 衡量防線緊湊度與威脅暴露。它結合四名最深防守球員形成的 convex hull area,以及三名最前攻擊球員到最近防守者的平均距離。值越低通常代表防線更緊密、更協調。
Pressure Index 計算有多少攻擊球員位於任一防守者 3 米範圍內。值由 0 到 3,越高代表 back four 對附近攻擊者施加更強近身壓力。
Space Score 用加權 zone 估計防守方對高風險空間的控制。作者定義四類 zone:Central Final Third、Penalty Box Proximity、Wing Pockets、Ball-Carrier Radius,並按 tactical importance 加權。分數越高,代表防守方在高價值區域相對攻擊方有更好 presence。
Absolute Defensive Line Height 是四名最深 outfield defenders 距離己方球門線的平均位置,反映防線整體推前或退深。Relative Line Height to Ball 則是皮球位置與防線平均位置的距離,反映防線是否跟住球移動、垂直協調是否穩定。
四、統計結果:Relative Line Height 最穩
作者先對五個指標做 Team × Outcome 的 two-way ANOVA。結果顯示所有五個指標都有 team effect,代表 Barcelona 與 Real Madrid 的防守結構有系統差異;outcome effect 亦普遍顯著,代表成功與失敗轉換在空間指標上有差別。
其中 Relative Line Height 最突出:Outcome effect 的 F = 430.06、p < 0.001、partial eta-squared = 0.153,是所有指標中最強。Bonferroni-corrected post-hoc comparison 後,relative line height 仍在兩隊中都顯著,確認它與防守成功有穩定關係。
直覺上,這表示防線不是越高或越低就一定好,而是要相對皮球保持合適位置。若防線與球距離失衡,對手就更容易找到進入禁區或射門的空間。
五、Predictive Modeling:XGBoost 表現最好
為了檢查這些 handcrafted indicators 是否有 out-of-sample predictive value,作者分別為 Barcelona 與 Real Madrid 建立 team-specific models。模型包括 Random Forest、XGBoost、SVM (RBF),使用 80/20 stratified split 與 5-fold cross-validation。
結果中,XGBoost 在兩隊都最好:
Barcelona:ROC AUC = 0.724,Accuracy = 0.672,Precision = 0.683,F1 = 0.663
Real Madrid:ROC AUC = 0.698,Accuracy = 0.648,Precision = 0.659,F1 = 0.646
這不是非常高的預測分數,但對只有五個可解釋指標的模型來講,已足以說明 back-four spatial indicators 捕捉到防守成功的 meaningful variance。作者亦指出,precision 對防守評估特別重要,因為把失敗防守誤判為成功會導致錯誤戰術結論。
六、Feature Importance:Space Score 與相對防線高度
XGBoost 的 built-in importance 與 SHAP 兩種方法都指向同一組重要 feature:Space Score 排第一,Relative Line Height 排第二,Stretch Index 排第三。
這個排序有戰術意義。Space Score 代表是否控制高風險區域;Relative Line Height 代表防線是否與皮球保持合適垂直關係;Stretch Index 則捕捉防線 compactness。三者合起來,比單純看防線平均高度或 pressure count 更能描述防守轉換品質。
換句話講,成功防守不是只靠「逼得近」,也不是只靠「退得深」;更重要是防線與球、對手、危險區域之間的幾何關係。
七、Barcelona 與 Real Madrid 的差異
論文指出 Barcelona 的 defensive outcomes 更容易被這些指標預測,代表其 back-four behavior 更結構化、更穩定。成功防守時,Barcelona 較能維持較高的空間控制和協調防線。
Real Madrid 則呈現較 adaptive 但不太穩定的防守結構。模型對 Real Madrid 的 AUC 稍低,可能反映其 transition defense 更依賴 context、球員即興反應或更複雜的場上因素,而五個 summary indicators 未能完全捕捉。
這點很重要:同一個 metric 不應無差別套用到所有球隊。Barcelona 的「好防守形狀」未必等於 Real Madrid 的「好防守形狀」,因為兩隊防守哲學和轉換節奏不同。
八、限制與後續方向
第一,研究只分析兩支 LaLiga elite teams,而且只聚焦 back-four 系統。若換成 back three、hybrid formation、低位防守隊或高位壓迫隊,指標權重可能不同。
第二,作者使用 mean aggregation,提升可解釋性並減少 multicollinearity,但會犧牲 temporal granularity。防線在 transition 前 1 秒和後 2 秒的變化,可能比整段平均值更有資訊。
第三,模型只用 handcrafted defensive indicators,未納入對手速度、球速、傳球路線、比分、疲勞、球員身份等 context。若加入 temporal graph neural networks 或 probabilistic models,可能能捕捉更細緻的 attacker-defender interaction。
九、小結
arXiv:2511.06191v1 的價值在於把防守組織量化成幾個可解釋、可訓練回饋的空間指標。Relative Line Height、Space Score、Stretch Index 不只是統計 feature,也可以轉化成教練語言:防線是否跟住球?高風險區域是否被控制?四人防線是否被拉散?
對足球分析團隊而言,這篇 paper 提供了一個實用方向:防守 analytics 不應只看事件結果,而要把 tracking data 變成能描述 collective organization 的指標,再用統計與模型驗證它們是否真的影響防守成功。
Reference
S. Dash, K. Ide, R. Umemoto, K. Amino, K. Fujii. Prediction-based evaluation of back-four defense with spatial control in soccer. arXiv:2511.06191v1 [cs.CY], 2025. https://arxiv.org/abs/2511.06191
W. Spearman. Beyond Expected Goals. MIT Sloan Sports Analytics Conference, 2018.
J. Van der Linden, B. Meijer, B. De Haan. ETSY: A rule-based synchronization algorithm for aligning event and tracking data in football. Journal of Sports Analytics, 2023.
原文 Paper




