Multi-modal 場景分析與 CropDrop 遮罩預訓練

15小时前
讀畢需時 2 分鐘

單機位戰術轉播入面，皮球細、遮擋多，ball tracking 往往唔及 player tracking 可靠；但進攻節奏、控球權同皮球狀態又係戰術分析嘅核心。Peral 等（2025）喺 arXiv:2512.19528v1 提出統一嘅 multi-modal 架構，喺唔直接依賴皮球過去／未來精確軌跡嘅前提下，聯合完成三項任務：ball trajectory inference、ball state classification、以及 ball possessor identification；輸入融合球員軌跡、球員類型標籤同以球員為中心嘅 image crops，並以一串 sociotemporal transformer 模組處理時空與社交互動。

一、設計動機

既有方法常依賴近距離／速度等手搓規則，或假設可取得高精度皮球座標；實戰轉播則充滿噪聲、遮擋同解像度限制。作者主張同時利用結構化軌跡與視覺上下文，並將三項任務平行監督，避免「先做 A 再做 B」嘅剛性 pipeline 將誤差逐級放大。

二、模態與架構（節略）

三種輸入經投影後拼接、融合，再經 Set Attention 式區塊同時建模時間演化與跨球員（社交）關係；針對唔同監督目標可附 CLS 式聚合以分流至各任務之 MLP 頭。整體屬 transformer 家族底下對足球場景嘅多任務擴展。

三、CropDrop：針對影像模態嘅遮罩預訓練

受 NLP 同 vision 領域 masked pre-training 啟發，作者提出 CropDrop：唔係單純隨機遮像素，而係以較貼近真實嘅方式遮掉整段視覺序列（模擬遮擋或訊號缺失），逼使模型喺預訓練階段更多倚重跨模態（軌跡＋類型＋其餘幀影像）嘅一致線索，減輕對 image crop 特徵嘅過度依賴。文中報告此策略對收斂與泛化有顯著幫助。

四、實驗與數據（節略）

論文於大規模頂級聯賽戰術鏡頭數據上評估，聲稱喺三項任務上均優於所報 baselines；細節（數據來源、標註協議、指標定義）以原文為準。文獻回顧亦討論 SoccerNet-GSR、僅用球員推斷球路線等相關工作。

五、小結

arXiv:2512.19528v1 將「無可靠球軌」下嘅足球場景理解，表述為多模態、多任務、可遮罩預訓練嘅一體化學習問題；對從事 sports CV、multi-modal transformer 同戰術數據產品嘅團隊，係可對照復現嘅技術路線圖。

Reference

M. Peral, G. Capellera, L. Ferraz, A. Rubio, A. Agudo. Multi-Modal Soccer Scene Analysis with Masked Pre-Training. arXiv:2512.19528v1 [cs.CV], 2025. https://arxiv.org/abs/2512.19528
文內引用之 SoccerNet、SoccerNet-GSR、軌跡推斷與控球辨識相關研究——見原文 §2 及參考文獻表。

機構：IRI (CSIC-UPC)、Kognia Sports Intelligence 等以論文作者單位為準。

AI PREDICTION