為何足球 AI 需要完整球場視角的 4K 追蹤資料集

5月30日
讀畢需時 6 分鐘

足球 AI 要真正理解比賽，不能只看電視轉播鏡頭。Broadcast video 很適合觀眾，但對 computer vision 研究而言，它經常只顯示球附近一小塊區域，遠端邊路、防線站位、弱側跑動與門將位置可能不在畫面內。若模型連全場 22 名球員在哪裡都看不完整，要做 long-term tracking、game state reconstruction 或 tactical analysis，自然會有天花板。

這論文正是針對這個資料瓶頸而來。它是一個新的 public soccer dataset，包含 10 場大學級別足球比賽的 full-length panoramic 4K recording，並配有 game state reconstruction（GSR）與 ball action spotting（BAS）annotations。這篇 technical report 不主打複雜模型，而是提供一個更接近實戰分析需求的資料基礎。

本文重點

論文的核心價值，是把「完整球場視角」和「逐幀比賽狀態」放在同一個資料集裡。它不只是 bounding box tracking dataset，而是提供 2D pitch coordinates、jersey-based player IDs、roles、team affiliations，以及 12 類 ball action labels。

這對足球 AI 很重要。若研究目標只是偵測畫面裡有幾個人，broadcast clips 也許夠用；但若目標是還原整個 game state，理解隊形、壓迫、反擊、傳球路線與戰術結構，就需要全場 visibility、穩定身份追蹤和可對齊事件標籤。SoccerTrack v2 嘗試補上這個缺口。

一、現有足球影片資料集的限制

過去幾年足球 computer vision 進步很快，SoccerNet、SportsMOT、TeamTrack、SoccerTrack v1 等資料集各自推動了 action spotting、multi-object tracking 和 full-pitch video analysis。但 paper 指出，這些資料仍有幾個常見限制。

第一，很多資料來自 broadcast view。轉播鏡頭會追球，對球迷很自然，對模型卻不一定理想。鏡頭切換、遮擋、縮放、球員出入畫面，都會令長時間追蹤變得困難。更重要的是，畫面外的球員位置本身就是 tactical context，但 broadcast clip 不一定看得到。

第二，不少資料只有短片段，或只覆蓋有限場景。短 clip 可以做 action spotting benchmark，但要研究一隊在 90 分鐘內的隊形變化、攻守轉換、體能下降或 tracking identity consistency，就需要 full-length match data。

第三，一些 full-pitch dataset 雖然有完整視角，但缺少 jersey numbers、player roles 或 team affiliations。這會限制 downstream tactical applications，因為實務分析往往不是只問「這裡有一個 player」，而是問「這是不是 6 號防中、是否屬於左方球隊、他在此刻的位置是否破壞了防線結構」。

二、SoccerTrack v2 提供甚麼

SoccerTrack v2 包含 10 場 university-level amateur matches，總長約 900 分鐘。所有比賽由固定 panoramic camera setups 拍攝，其中兩場使用 BePro Cerberus system，其餘八場使用 BePro 的 3-camera panoramic stitching system，目標是以 4K resolution 覆蓋完整球場。

資料集提供 MP4 video，也提供 JSON-based annotations。GSR annotations 包括每一 frame 中可見 player、goalkeeper 和 referee 的資訊：

2D pitch coordinates（以米為單位）
persistent track ID
role，例如 player、goalkeeper、referee 或 other
team side，例如 left、right 或 null
jersey number，若可見則為 0 至 99，否則為 null

這些標籤的意義，是讓研究者不只追蹤影像空間中的 bounding box，而能把畫面中的人映射到球場座標和比賽語境裡。對 game state reconstruction 來說，這比單純 MOT 更接近真正需要的中間表示。

三、BAS：把追蹤和事件連起來

除了 GSR，SoccerTrack v2 也提供 ball action spotting（BAS）annotations。這部分來自 BePro event logs，再經 manual checks 和 corrections，以確保 event timing 與 action class 的準確性。

paper 列出 12 類 ball action：

Pass
Drive
Header
High Pass
Out
Cross
Throw In
Shot
Ball Player Block
Player Successful Tackle
Free Kick
Goal

這一點令資料集不只是「位置資料」，也可以支援 event-based video understanding。研究者可以把 tracking、球場座標與 ball action labels 對齊，訓練或評估模型是否能在完整比賽裡偵測傳球、盤帶、射門、解圍或入球等事件。

四、為何 full-pitch panoramic view 很關鍵

足球戰術不是只發生在球附近。很多關鍵訊號其實在遠端：弱側 winger 的拉闊、防中是否遮住 passing lane、中堅線是否太深、full-back 是否提前壓上、前鋒是否誘導對手出球方向。Broadcast camera 會把這些資訊大量丟失。

Full-pitch panoramic 4K video 的好處，是模型可以同時看到球、持球者、附近壓迫者，以及遠端隊友和防線。這對幾類研究特別重要：

Multi-object tracking： 模型需要長時間保持球員身份一致，尤其在人群交錯、遮擋和遠距離小目標情況下。

Game state reconstruction： 模型要把 video observations 轉成球場上的 structured state，例如所有球員的 pitch coordinates、隊伍、角色與可能的 possession context。

Tactical analysis： 研究者可以分析 pressing shape、defensive line height、transition runs、space occupation 和 off-ball movement，而不只是計算球附近事件。

五、這份 technical report 的取捨

SoccerTrack v2 目前是一篇 preliminary technical report，因此它更像 dataset announcement，而不是完整 benchmark paper。作者明確提到，後續會有更完整 journal paper，加入 evaluations、baselines 和 benchmarks。

另一個重要取捨是 bounding box annotation。作者原本計劃為 10 場比賽、約 1.62 million frames 做完整 bounding box annotation，但估計需要約 5000 小時人工，因此主資料集不包含完整 bounding boxes。取而代之的是，部分 curated subset 會作為 SoccerTrack Challenge（MMSports 2025）釋出。

這個取捨可以理解。完整 bounding boxes 對 detection / tracking benchmark 很有價值，但如果目標是 GSR 和 tactical analytics，pitch coordinates、track IDs、roles、team side 和 BAS labels 可能更接近下游任務需要。資料集不是要一次解決所有足球視覺問題，而是優先補足 full-pitch state reconstruction 的資料空缺。

六、實務上可以怎樣用

對研究者來說，SoccerTrack v2 可以用來建立幾種 benchmark。第一是 full-pitch MOT：在 panoramic video 中追蹤所有球員、門將和裁判，並維持 persistent identity。第二是 video-to-pitch-state：從影像估計 2D pitch coordinates，把視覺輸入轉成可供戰術分析使用的 state representation。第三是 BAS：在完整比賽時間軸上定位 pass、shot、cross、tackle 等事件。

對球隊和分析平台而言，這類資料集的價值在於接近 production workflow。真正的 tactical tool 不應只輸出「某時間有一次 shot」，而要能回答：射門前防線如何移動？傳球前中場空間如何打開？反擊時有幾名球員在關鍵 lane？這些問題都需要 full-pitch tracking 與 event labels 配合。

對模型開發而言，SoccerTrack v2 也可作為 multimodal soccer understanding 的基礎。未來可以把 video frames、pitch coordinates、BAS events、team identities 和 tactical labels 結合，訓練更完整的 football foundation model 或 analytics agent。

七、限制與注意事項

第一，資料來自 university-level amateur matches，不是職業聯賽。這不代表資料無用，但比賽節奏、戰術紀律、鏡頭環境和球員體型動作分布，都可能與職業賽不同。若模型要部署到英超、歐聯或國家隊比賽，仍然需要 domain adaptation 或額外驗證。

第二，paper 提到完整資料會透過 GitHub 和 Hugging Face 釋出；實際使用時，研究者需要查閱 repository、download scripts、checksum 和 licensing 條款。資料集涉及真實球員影像，雖然作者說已取得書面同意並以 jersey number 取代個人姓名，但使用者仍應遵守引用與倫理要求。

第三，這篇 report 暫時沒有 baseline performance。換言之，我們知道資料集有甚麼，但還未看到各類模型在上面的標準成績。等後續 journal paper 或 challenge 結果出來，才更容易判斷 task difficulty 和 benchmark value。

八、小結

論文的貢獻很直接：它為足球 computer vision 提供一個更貼近完整比賽理解的資料集。SoccerTrack v2 把 panoramic 4K full-match video、GSR annotations 和 BAS labels 放在一起，讓研究者可以由「看見球員」走向「重建比賽狀態」。

如果足球 AI 的下一步是做 tactical assistant、automatic match coding、tracking-based scouting 或 game state reconstruction，那麼資料集的關鍵不只是大，而是視角完整、身份穩定、座標可用、事件可對齊。SoccerTrack v2 正是在這個方向上補了一塊重要拼圖。

Reference

A. Scott, I. Uchida, K. Kuroda, Y. Kim, K. Fujii. SoccerTrack v2: A Full-Pitch Multi-View Soccer Dataset for Game State Reconstruction. arXiv:2508.01802v1 [cs.CV], 2025. https://arxiv.org/abs/2508.01802
A. Scott, I. Uchida, M. Onishi, Y. Kameda, K. Fukui, K. Fujii. SoccerTrack: A Dataset and Tracking Algorithm for Soccer with Fish-eye and Drone Videos. CVPR Workshops, 2022.
V. Somers et al. SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification on a Minimap. CVPR, 2024.