為何足球 AI 需要完整球場視角的 4K 追蹤資料集
- 4天前
- 讀畢需時 6 分鐘
足球 AI 要真正理解比賽,不能只看電視轉播鏡頭。Broadcast video 很適合觀眾,但對 computer vision 研究而言,它經常只顯示球附近一小塊區域,遠端邊路、防線站位、弱側跑動與門將位置可能不在畫面內。若模型連全場 22 名球員在哪裡都看不完整,要做 long-term tracking、game state reconstruction 或 tactical analysis,自然會有天花板。
這論文正是針對這個資料瓶頸而來。它是一個新的 public soccer dataset,包含 10 場大學級別足球比賽的 full-length panoramic 4K recording,並配有 game state reconstruction(GSR)與 ball action spotting(BAS)annotations。這篇 technical report 不主打複雜模型,而是提供一個更接近實戰分析需求的資料基礎。
本文重點
論文的核心價值,是把「完整球場視角」和「逐幀比賽狀態」放在同一個資料集裡。它不只是 bounding box tracking dataset,而是提供 2D pitch coordinates、jersey-based player IDs、roles、team affiliations,以及 12 類 ball action labels。
這對足球 AI 很重要。若研究目標只是偵測畫面裡有幾個人,broadcast clips 也許夠用;但若目標是還原整個 game state,理解隊形、壓迫、反擊、傳球路線與戰術結構,就需要全場 visibility、穩定身份追蹤和可對齊事件標籤。SoccerTrack v2 嘗試補上這個缺口。
一、現有足球影片資料集的限制
過去幾年足球 computer vision 進步很快,SoccerNet、SportsMOT、TeamTrack、SoccerTrack v1 等資料集各自推動了 action spotting、multi-object tracking 和 full-pitch video analysis。但 paper 指出,這些資料仍有幾個常見限制。
第一,很多資料來自 broadcast view。轉播鏡頭會追球,對球迷很自然,對模型卻不一定理想。鏡頭切換、遮擋、縮放、球員出入畫面,都會令長時間追蹤變得困難。更重要的是,畫面外的球員位置本身就是 tactical context,但 broadcast clip 不一定看得到。
第二,不少資料只有短片段,或只覆蓋有限場景。短 clip 可以做 action spotting benchmark,但要研究一隊在 90 分鐘內的隊形變化、攻守轉換、體能下降或 tracking identity consistency,就需要 full-length match data。
第三,一些 full-pitch dataset 雖然有完整視角,但缺少 jersey numbers、player roles 或 team affiliations。這會限制 downstream tactical applications,因為實務分析往往不是只問「這裡有一個 player」,而是問「這是不是 6 號防中、是否屬於左方球隊、他在此刻的位置是否破壞了防線結構」。
二、SoccerTrack v2 提供甚麼
SoccerTrack v2 包含 10 場 university-level amateur matches,總長約 900 分鐘。所有比賽由固定 panoramic camera setups 拍攝,其中兩場使用 BePro Cerberus system,其餘八場使用 BePro 的 3-camera panoramic stitching system,目標是以 4K resolution 覆蓋完整球場。
資料集提供 MP4 video,也提供 JSON-based annotations。GSR annotations 包括每一 frame 中可見 player、goalkeeper 和 referee 的資訊:
2D pitch coordinates(以米為單位)
persistent track ID
role,例如 player、goalkeeper、referee 或 other
team side,例如 left、right 或 null
jersey number,若可見則為 0 至 99,否則為 null
這些標籤的意義,是讓研究者不只追蹤影像空間中的 bounding box,而能把畫面中的人映射到球場座標和比賽語境裡。對 game state reconstruction 來說,這比單純 MOT 更接近真正需要的中間表示。
三、BAS:把追蹤和事件連起來
除了 GSR,SoccerTrack v2 也提供 ball action spotting(BAS)annotations。這部分來自 BePro event logs,再經 manual checks 和 corrections,以確保 event timing 與 action class 的準確性。
paper 列出 12 類 ball action:
Pass
Drive
Header
High Pass
Out
Cross
Throw In
Shot
Ball Player Block
Player Successful Tackle
Free Kick
Goal
這一點令資料集不只是「位置資料」,也可以支援 event-based video understanding。研究者可以把 tracking、球場座標與 ball action labels 對齊,訓練或評估模型是否能在完整比賽裡偵測傳球、盤帶、射門、解圍或入球等事件。
四、為何 full-pitch panoramic view 很關鍵
足球戰術不是只發生在球附近。很多關鍵訊號其實在遠端:弱側 winger 的拉闊、防中是否遮住 passing lane、中堅線是否太深、full-back 是否提前壓上、前鋒是否誘導對手出球方向。Broadcast camera 會把這些資訊大量丟失。
Full-pitch panoramic 4K video 的好處,是模型可以同時看到球、持球者、附近壓迫者,以及遠端隊友和防線。這對幾類研究特別重要:
Multi-object tracking: 模型需要長時間保持球員身份一致,尤其在人群交錯、遮擋和遠距離小目標情況下。
Game state reconstruction: 模型要把 video observations 轉成球場上的 structured state,例如所有球員的 pitch coordinates、隊伍、角色與可能的 possession context。
Tactical analysis: 研究者可以分析 pressing shape、defensive line height、transition runs、space occupation 和 off-ball movement,而不只是計算球附近事件。
五、這份 technical report 的取捨
SoccerTrack v2 目前是一篇 preliminary technical report,因此它更像 dataset announcement,而不是完整 benchmark paper。作者明確提到,後續會有更完整 journal paper,加入 evaluations、baselines 和 benchmarks。
另一個重要取捨是 bounding box annotation。作者原本計劃為 10 場比賽、約 1.62 million frames 做完整 bounding box annotation,但估計需要約 5000 小時人工,因此主資料集不包含完整 bounding boxes。取而代之的是,部分 curated subset 會作為 SoccerTrack Challenge(MMSports 2025)釋出。
這個取捨可以理解。完整 bounding boxes 對 detection / tracking benchmark 很有價值,但如果目標是 GSR 和 tactical analytics,pitch coordinates、track IDs、roles、team side 和 BAS labels 可能更接近下游任務需要。資料集不是要一次解決所有足球視覺問題,而是優先補足 full-pitch state reconstruction 的資料空缺。
六、實務上可以怎樣用
對研究者來說,SoccerTrack v2 可以用來建立幾種 benchmark。第一是 full-pitch MOT:在 panoramic video 中追蹤所有球員、門將和裁判,並維持 persistent identity。第二是 video-to-pitch-state:從影像估計 2D pitch coordinates,把視覺輸入轉成可供戰術分析使用的 state representation。第三是 BAS:在完整比賽時間軸上定位 pass、shot、cross、tackle 等事件。
對球隊和分析平台而言,這類資料集的價值在於接近 production workflow。真正的 tactical tool 不應只輸出「某時間有一次 shot」,而要能回答:射門前防線如何移動?傳球前中場空間如何打開?反擊時有幾名球員在關鍵 lane?這些問題都需要 full-pitch tracking 與 event labels 配合。
對模型開發而言,SoccerTrack v2 也可作為 multimodal soccer understanding 的基礎。未來可以把 video frames、pitch coordinates、BAS events、team identities 和 tactical labels 結合,訓練更完整的 football foundation model 或 analytics agent。
七、限制與注意事項
第一,資料來自 university-level amateur matches,不是職業聯賽。這不代表資料無用,但比賽節奏、戰術紀律、鏡頭環境和球員體型動作分布,都可能與職業賽不同。若模型要部署到英超、歐聯或國家隊比賽,仍然需要 domain adaptation 或額外驗證。
第二,paper 提到完整資料會透過 GitHub 和 Hugging Face 釋出;實際使用時,研究者需要查閱 repository、download scripts、checksum 和 licensing 條款。資料集涉及真實球員影像,雖然作者說已取得書面同意並以 jersey number 取代個人姓名,但使用者仍應遵守引用與倫理要求。
第三,這篇 report 暫時沒有 baseline performance。換言之,我們知道資料集有甚麼,但還未看到各類模型在上面的標準成績。等後續 journal paper 或 challenge 結果出來,才更容易判斷 task difficulty 和 benchmark value。
八、小結
論文的貢獻很直接:它為足球 computer vision 提供一個更貼近完整比賽理解的資料集。SoccerTrack v2 把 panoramic 4K full-match video、GSR annotations 和 BAS labels 放在一起,讓研究者可以由「看見球員」走向「重建比賽狀態」。
如果足球 AI 的下一步是做 tactical assistant、automatic match coding、tracking-based scouting 或 game state reconstruction,那麼資料集的關鍵不只是大,而是視角完整、身份穩定、座標可用、事件可對齊。SoccerTrack v2 正是在這個方向上補了一塊重要拼圖。
Reference
A. Scott, I. Uchida, K. Kuroda, Y. Kim, K. Fujii. SoccerTrack v2: A Full-Pitch Multi-View Soccer Dataset for Game State Reconstruction. arXiv:2508.01802v1 [cs.CV], 2025. https://arxiv.org/abs/2508.01802
A. Scott, I. Uchida, M. Onishi, Y. Kameda, K. Fukui, K. Fujii. SoccerTrack: A Dataset and Tracking Algorithm for Soccer with Fish-eye and Drone Videos. CVPR Workshops, 2022.
V. Somers et al. SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification on a Minimap. CVPR, 2024.
原文 Paper




