SoccerMaster:足球專用 Vision Foundation Model
- 5月5日
- 讀畢需時 5 分鐘
已更新:5月6日
足球影片理解一直都很碎片化:一個模型做球員偵測,一個模型做 tracking,一個模型做 camera calibration,另一個模型再做 event classification 或 commentary generation。每個任務各有專家模型,但整條 pipeline 工程成本高,而且空間感知與語義理解之間往往割裂。
Yang、Rao、Wu 與 Xie 喺 arXiv:2512.11016v1 提出 SoccerMaster,目標係建立第一個足球專用 vision foundation model:同一個 backbone 同時學習球員偵測、球場線與關鍵點、event classification、vision-language alignment,然後再輕量 fine-tune 到 camera calibration、multiple object tracking、commentary generation 等下游任務。
本文重點
SoccerMaster 的核心不是單一任務 SOTA,而是把足球視覺理解拆成兩條主線再合併:spatial perception 與 semantic reasoning。前者關心「球員在哪裡、球場線在哪裡、鏡頭如何對應到球場」;後者關心「發生了甚麼事件、影片如何對應到文字描述」。
為了支撐這種 multi-task pretraining,作者建立 SoccerFactory:整合自動標註的 broadcast footage 與既有 soccer video datasets,合共約 7.45M frames、248.3K video segments,其中 2.75M frames 用於 spatial perception,4.71M frames 用於 semantic reasoning。
一、為何足球需要 domain foundation model
一般 vision foundation model 如 SigLIP 2、DINOv3 已經有很強泛化能力,但足球比賽有幾個獨特難點:鏡頭長距離、球員細小、遮擋多、球衣號碼模糊、鏡頭切換頻繁,而且任務橫跨幾何與語義。
純 vision-language model 可能可以描述「發生了入球」或「球員傳中」,但未必能準確指出哪名球員、哪個位置、哪條球場線、鏡頭參數如何。相反,傳統 detection / calibration 模型雖然精準,但缺乏事件語義和文字理解能力。
SoccerMaster 的設計正是要把這兩邊放入同一個 representation:既看得懂球場幾何,也理解比賽事件。
二、SoccerFactory:自動標註加既有資料集
大型 supervised multi-task pretraining 的最大障礙是標註。足球影片的 dense spatial labels 很貴,尤其是球員 bounding box、role、jersey number、team affiliation、field keypoints、field lines、camera parameters 等。
作者提出自動資料整理 pipeline,流程包括三段:
Field registration:偵測球場 keypoints 與 lines,再用 PnL module 估計 camera parameters。
Tracking and identification:用 fine-tuned YOLOv8 偵測 player / goalkeeper / referee,再用 StrongSORT、PRTReID、Qwen2.5-VL 做 tracking、role / jersey recognition。
Post-processing refinement:用 SAM2 補 detection 與修正 identity switch,再用 voting 和 tracklet merging 提升時間一致性。
在 SoccerNet Game State Reconstruction Challenge 官方 test set 上,這條 pipeline 取得 GS-HOTA = 64.1,高於 KIST-GSR 的 61.5,說明自動標註質量足以作為大規模 pretraining 資料來源。
三、模型架構:空間先行,再加入時間
SoccerMaster 使用 ViT / TimeSformer 風格的 hierarchical visual encoder,初始化自 SigLIP 2-large-patch16-512。模型先用 L_s = 16 層 spatial transformer blocks 分別處理每一幀,保留細緻空間特徵;再用 L_st = 8 層 spatiotemporal transformer blocks 建模跨幀動態。
輸入影片被採樣成 30 frames,解析度為 512 × 512,patch size 為 16 × 16。模型輸出分成 spatial features 與 semantic features,前者接 athlete detection / pitch registration heads,後者接 event classification / vision-language alignment heads。
下游任務方面,commentary generation 透過 Q-Former 聚合語義特徵,再投影到 Llama-3-8B 作 prefix embeddings;camera calibration 則基於 pitch keypoints / lines 接 PnL refinement;multiple object tracking 則參考 MOTIP,把 association 表述成 ID prediction。
四、多任務 pretraining 學甚麼
SoccerMaster 的 pretraining 同時包括四類任務:
Athlete detection:輸出球員 bounding box、role(goalkeeper / player / referee)、jersey number。
Pitch registration:偵測球場 keypoints 與 line segments,支援 calibration。
Event classification:辨識 goal、corner、yellow card 等 24 類事件。
Vision-language alignment:把足球影片語義特徵對齊文字 commentary embedding。
這種設計有一個關鍵取向:不是只用語言 supervision 學「影片描述」,而是強迫 backbone 同時承擔 dense spatial supervision。對足球場景來講,這很重要,因為「誰、在哪裡、怎樣移動」通常比普通影片 caption 更要求幾何精度。
五、Pretraining tasks 的結果訊號
在 frozen encoder + trainable task heads 的比較設定下,SoccerMaster 對比 SigLIP 2、DINOv3、MatchVision 均有明顯優勢。
在 athlete detection 上,SoccerMaster 達到 AP@50 = 92.3、mAP = 50.5,而第二佳 baseline 的 mAP 約 32.0。event classification accuracy 達 73.8%,高於 MatchVision 的 65.3%。vision-language retrieval top-1 accuracy 達 35.0%,遠高於 SigLIP 2 的 3.4% 與 MatchVision 的 4.0%。
這組結果反映一件事:通用模型有語義基礎,但 domain gap 很大;既有足球模型有 domain knowledge,但如果 pretraining 忽略 dense spatial objectives,仍難以同時做好空間與語義任務。
六、下游任務:Calibration、Tracking、Commentary
在 camera calibration 上,SoccerMaster zero-shot 已可在 SN22-test-center 以 512×512 解析度取得 FS = 70.1,略高於同解析度 PnlCalib 的 67.6。fine-tune 後,SN22 final score 達 75.8,SN23 達 56.2,分別高於 PnlCalib 的 67.6 與 51.8。
在 multiple object tracking 上,SoccerMaster + MOTIP 取得 HOTA = 59.1、DetA = 65.2、MOTA = 81.6、IDF1 = 74.6。雖然 HOTA 略低於 YOLOv8 + PRTreID 的 59.8,但 SoccerMaster 是較簡化的 end-to-end pipeline,DetA 和 MOTA 表現尤其強。
在 commentary generation 上,SoccerMaster 在 SN-Caption-test-align 上取得 BLEU@1 = 31.3、BLEU@4 = 8.9、CIDEr = 38.6,其中 CIDEr 高於 MatchVision 的 35.7,顯示 multi-task pretraining 學到的語義表示可轉移到文字生成。
七、自動標註資料的 ablation
作者亦驗證 pipeline-generated spatial annotations 是否真的有用。使用較小版本 SoccerMaster 時,加入自動生成資料後,athlete detection 從 AP@50 = 77.7 / mAP = 30.2 提升至 AP@50 = 82.0 / mAP = 37.5。
這個 ablation 很關鍵,因為它證明自動標註不是只增加噪聲,而是能有效補足足球 spatial perception 所需的大量 supervision。對實務而言,這代表 domain foundation model 可以靠 semi-automatic data factory 擴展,而不必完全依賴人工逐幀標註。
八、限制與觀察
第一,SoccerMaster 仍是 supervised multi-task pretraining,資料集與標註流程的覆蓋範圍會影響模型能力。若訓練資料主要來自特定 broadcast style、league 或 camera angle,模型在低級別聯賽、非主鏡頭、戰術鏡頭或球迷拍攝影片上的泛化仍需驗證。
第二,自動資料 pipeline 很強,但本身亦是多模型組合:YOLOv8、StrongSORT、PRTReID、Qwen2.5-VL、SAM2、PnL module。這些上游錯誤雖經 post-processing 修正,仍可能被吸收到 pretraining label 裡。
第三,文章主張 unified model 可降低工程成本,但部署時仍需按任務接不同 head 與 fine-tuning 設定。foundation model 更像共用 backbone,而不是完全免除任務工程。
九、小結
arXiv:2512.11016v1 將足球視覺理解推向「domain foundation model」方向:不是每個任務各做一個孤立專家,而是用同一個 backbone 同時學球場幾何、球員身份、事件語義與文字對齊。
對足球 AI 團隊而言,SoccerMaster 的啟示是清楚的:若要讓模型真正理解比賽影片,不能只做 caption 或 event classification;必須把「where / who / what」一起放入 pretraining 目標。
Reference
H. Yang, J. Rao, H. Wu, W. Xie. SoccerMaster: A Vision Foundation Model for Soccer Understanding. arXiv:2512.11016v1 [cs.CV], 2025. https://arxiv.org/abs/2512.11016
J. Rao, H. Wu, H. Jiang, Y. Zhang, Y. Wang, W. Xie. Towards Universal Soccer Video Understanding. CVPR, 2025.
J. Rao, H. Wu, C. Liu, Y. Wang, W. Xie. MatchTime: Towards Automatic Soccer Game Commentary Generation. EMNLP, 2024.
原文 Paper




