top of page

Multi-modal 場景分析與 CropDrop 遮罩預訓練

  • 15小时前
  • 讀畢需時 2 分鐘

單機位戰術轉播入面,皮球細、遮擋多,ball tracking 往往唔及 player tracking 可靠;但進攻節奏、控球權同皮球狀態又係戰術分析嘅核心。Peral 等(2025)喺 arXiv:2512.19528v1 提出統一嘅 multi-modal 架構,喺唔直接依賴皮球過去/未來精確軌跡嘅前提下,聯合完成三項任務:ball trajectory inferenceball state classification、以及 ball possessor identification;輸入融合球員軌跡、球員類型標籤同以球員為中心嘅 image crops,並以一串 sociotemporal transformer 模組處理時空與社交互動。


一、設計動機

既有方法常依賴近距離/速度等手搓規則,或假設可取得高精度皮球座標;實戰轉播則充滿噪聲、遮擋同解像度限制。作者主張同時利用結構化軌跡視覺上下文,並將三項任務平行監督,避免「先做 A 再做 B」嘅剛性 pipeline 將誤差逐級放大。


二、模態與架構(節略)

三種輸入經投影後拼接、融合,再經 Set Attention 式區塊同時建模時間演化跨球員(社交)關係;針對唔同監督目標可附 CLS 式聚合以分流至各任務之 MLP 頭。整體屬 transformer 家族底下對足球場景嘅多任務擴展。


三、CropDrop:針對影像模態嘅遮罩預訓練

NLPvision 領域 masked pre-training 啟發,作者提出 CropDrop:唔係單純隨機遮像素,而係以較貼近真實嘅方式遮掉整段視覺序列(模擬遮擋或訊號缺失),逼使模型喺預訓練階段更多倚重跨模態(軌跡+類型+其餘幀影像)嘅一致線索,減輕對 image crop 特徵嘅過度依賴。文中報告此策略對收斂與泛化有顯著幫助。


四、實驗與數據(節略)

論文於大規模頂級聯賽戰術鏡頭數據上評估,聲稱喺三項任務上均優於所報 baselines;細節(數據來源、標註協議、指標定義)以原文為準。文獻回顧亦討論 SoccerNet-GSR、僅用球員推斷球路線等相關工作。


五、小結

arXiv:2512.19528v1 將「無可靠球軌」下嘅足球場景理解,表述為多模態、多任務、可遮罩預訓練嘅一體化學習問題;對從事 sports CVmulti-modal transformer 同戰術數據產品嘅團隊,係可對照復現嘅技術路線圖。


Reference

  1. M. Peral, G. Capellera, L. Ferraz, A. Rubio, A. Agudo. Multi-Modal Soccer Scene Analysis with Masked Pre-Training. arXiv:2512.19528v1 [cs.CV], 2025. https://arxiv.org/abs/2512.19528

  2. 文內引用之 SoccerNetSoccerNet-GSR、軌跡推斷與控球辨識相關研究——見原文 §2 及參考文獻表。

機構:IRI (CSIC-UPC)、Kognia Sports Intelligence 等以論文作者單位為準。



bottom of page