top of page

Human Action Recognition 預測十二碼方向

  • 19分钟前
  • 讀畢需時 6 分鐘

足球十二碼看似是一瞬間的心理戰:射手助跑、門將判斷、起腳、撲救。對人類門將來說,真正能用的時間很短;如果等到球離腳後才反應,多數已經太遲。因此,門將往往要從射手助跑、身體姿態、支撐腳角度和起腳動作中預判方向。

Freire-Obregón 等人在文中提出一個很直接的問題:如果把十二碼射手起腳前後的短片交給 Human Action Recognition(HAR)模型,能否只靠射手動作預測射門方向?他們建立了一個手動標註的 penalty kick dataset,並比較 22 個 HAR backbone,最佳二分類模型在 left/right 預測上達到 63.9% accuracy,高於真實門將選擇方向的 baseline。


本文重點

這篇 paper 的重點,不是說 AI 可以保證撲出十二碼,而是證明射手動作裡確實有可學習的 anticipatory cues。模型不看球的飛行軌跡,也不使用射門結果畫面,而是聚焦於 run-up 與 kicking phase,嘗試在極短時間內判斷球會去左邊還是右邊。

作者的 pipeline 把影片先做 context constraint:用 ByteTrack 抽出射手,移除其他球員、門將、觀眾和背景干擾;再把片段拆成助跑與起腳兩段,用 pre-trained HAR backbone 抽 embedding,最後把兩段 embedding 加上 metadata(例如射手慣用腳、場地方向)輸入 classifier。


一、為何十二碼是 action anticipation 問題

一般 action recognition 是看完一段影片後判斷「發生了甚麼」。Action anticipation 更難,因為它要在事件完全發生之前預測接下來會怎樣。十二碼正好是這類問題的典型場景:射手真正起腳前,動作已經逐步透露意圖,但訊號很細、時間很短,而且有 deception。

對足球分析來說,這個任務有兩個吸引之處。第一,它非常結構化:球、射手、門將、龍門位置都固定在相對清楚的情境。第二,它又充滿不確定性:射手可能臨時改變方向,或刻意用身體假動作誤導門將。

因此,若模型能在這個場景中學到穩定訊號,便不只是十二碼工具,也可以視為 sports-based action anticipation 的 benchmark。


二、資料集:從 1,010 段片篩到 640 段

作者指出,現成公開的 soccer penalty kick dataset 並不足以支援這個任務,因此他們自行從網上蒐集片段。初始資料包含 1,010 段 penalty kick clips,來源關鍵字包括 “penalty-kick shootout” 等。

原始影片大多是 1280 x 720,長度約 3 至 6 秒,涵蓋射手開始助跑前到球到達龍門、門將、門柱或出界。為了讓模型只看動作線索,作者把每段片修剪成 48 frames:前 32 frames 是 run-up,後 16 frames 圍繞 kicking moment(起腳前 8 frames、起腳後 8 frames)。這個設計刻意排除球的飛行軌跡或最後結果。

資料清理亦很重要。視角不合適的片段,例如由門將背後拍攝,或長度不足 64 frames 的片段會被剔除。最後可用資料為 640 段,其中 229 球射向左、303 球射向右、108 球射向中間;另外 metadata 包括射門在球場左/右側,以及射手左右腳資訊。


三、Pipeline:先隔離射手,再抽動作 embedding

paper 的第一步是把畫面中的干擾降到最低。作者用 ByteTrack 偵測並追蹤射手 bounding box,然後把射手區域疊到平均背景 frame 上,令背景相對靜止,只保留射手的動作變化。

這是一個相當「乾淨」的實驗設定。它讓模型少受其他球員、門將、觀眾、球場廣告牌等因素影響,專注於射手本人的身體運動。缺點是,這也意味著 pipeline 依賴良好的預處理;若要即場使用,仍要處理自動追蹤、視角變化和低延遲等工程問題。

第二步是 HAR embedding extraction。作者把 run-up phase 和 kicking phase 分開,分別送入 pre-trained HAR backbone,再用 average pooling 或 max pooling 合成每段影片的 embedding。

第三步是 classifier。模型有兩個 video embedding branch,分別處理助跑與起腳,再與 metadata branch 結合,最後輸出 shot direction。任務有兩種版本:三分類(left / center / right)和二分類(left / right)。


四、比較了哪些模型

作者比較了 22 個 backbone models,涵蓋 7 個架構家族:

  • C2D

  • I3D

  • Slow

  • SlowFast

  • Non-Local Network variants(NLN)

  • X3D

  • MViTv1 / MViTv2

這些模型本來就是 video action recognition 常見 backbone。差異在於它們如何處理時間資訊:有些偏向 2D spatial features,有些用 3D convolution,有些用 SlowFast 的雙路徑時間尺度,有些則用 multiscale vision transformer 捕捉長距離時序關係。

對十二碼來說,這些時序差異很重要。射手方向線索未必只在最後一格;助跑節奏、身體傾斜、最後幾步步幅和支撐腳方向,都可能要跨 frames 才看得出來。


五、結果:二分類比三分類穩定得多

三分類任務比較困難。最佳模型是 MViTv1,accuracy 為 51.9%MViTv2 也達到 51.6%。相比之下,真實門將方向選擇的 baseline accuracy 是 46.0%。這表示模型確實學到一些動作訊號,但三分類表現仍不算高。

問題主要在 center class。confusion matrix 顯示,模型對 left 和 right 的正確率分別約 60.4%61.3%,但 center shots 只正確辨識 12.0%。作者認為這與標註語義和視角有關:從鏡頭角度看,真正中路、稍偏左、稍偏右之間未必清楚,人手標註也會有主觀差異。

因此,二分類 left/right 更穩定。最佳模型 MViTv2 S 使用 16 frames、average pooling,達到:

  • accuracy:63.9%

  • precision:64.9%

  • recall:60.2%

  • F1-score:62.5%

真實門將 baseline 在二分類中是 54.2% accuracy。換言之,在這個資料與設定下,模型對方向判斷比門將實際撲救方向更準。


六、為何 MViTv2 表現較好

paper 對 MViTv2 的解釋是,它能較好捕捉 temporal dependencies 和 contextual relationships。十二碼動作不是單一姿勢分類,而是一段短時間內的序列:起跑方向、身體旋轉、步幅、支撐腳和擺腿動作共同形成訊號。

Average pooling 亦比只取最強特徵的 max pooling 更適合某些設定,因為它保留較完整的時序整體感。對十二碼這種細微動作,過度依賴單一 salient moment 可能不如整段動作平均表示穩定。

另一個實用結果是 metadata 有幫助。作者指出,加入 metadata 令 accuracy 提升約 2 至 3 個百分點,F1-score 提升約 5 個百分點;把 run-up 和 kicking phase 分成兩個 embedding branch,也令 accuracy 提升約 3 至 5 個百分點。這代表「助跑」和「起腳」不是重複訊息,而是各自提供可用線索。


七、這是否代表門將可以靠 AI 即場撲救?

暫時不能這樣理解。這篇 paper 更接近 proof of concept 和 benchmark,而不是已可部署的即場門將助手。

第一,資料集只有 640 個可用樣本,且來自網上影片,視角、畫質、賽事層級和剪輯方式都不完全一致。這有助於模型面對變化,但也帶來 dataset bias 和標註噪聲。

第二,預處理相當理想化。作者先隔離射手、固定背景,並手動切分 run-up 和 kicking phase。真實比賽若要即時使用,需要自動偵測射手、追蹤身體、判斷起腳時刻,而且整個 pipeline 必須低延遲。

第三,模型沒有使用球的軌跡。這是優點也是限制:優點是它真的在學「射手起腳前的動作線索」;限制是它沒有結合門將位置、射門力量、球路高度或 shot quality。實務上,門將決策可能需要把多種訊號合併。


八、實務價值

即使未能即場部署,這類模型仍有不少用途。對球隊分析部門,它可以用於賽前準備:整理某射手的 penalty run-up pattern,評估他在不同角度、慣用腳、助跑節奏下的方向傾向。

對青訓和門將教練,它可以作為 training tool:讓門將練習從射手動作中提早判斷方向,並用模型結果作對照。若模型與人類判斷不同,教練可以回看是哪個身體 cue 造成差異。

對 computer vision 研究者,這份資料集提供了一個小而清楚的 sports action anticipation task。它不像完整比賽理解那麼複雜,但足夠考驗模型是否能從短時間、細微、帶 deception 的動作中提取有效訊號。


九、小結

文中說明了一件有趣的事:十二碼方向不是完全隨機。即使不看球的最終軌跡,只看射手助跑與起腳動作,HAR 模型仍能在 left/right 任務上做到明顯高於機會率,並超過真實門將 baseline。

這不代表 AI 已經破解十二碼心理戰,但它提供了一個可量化的方向:把門將直覺中的「看射手身體語言」,轉化成 video embeddings、metadata 和 action anticipation model。下一步若能加入更多高質量資料、姿態估計、球員個人化模型和即時 tracking,這類方法可能會成為門將訓練與賽前分析的一個有用工具。


Reference

  1. D. Freire-Obregón, O. J. Santana, J. Lorenzo-Navarro, D. Hernández-Sosa, M. Castrillón-Santana. Predicting Soccer Penalty Kick Direction Using Human Action Recognition. arXiv:2507.12617v1 [cs.CV], 2025. https://arxiv.org/abs/2507.12617

  2. J. Artiles, D. Hernández-Sosa, O. Santana, J. Lorenzo-Navarro, D. Freire-Obregón. Classifying soccer ball-on-goal position through kicker shooting action. ICPRAM, 2024.

  3. H. Fan, B. Xiong, K. Mangalam, Y. Li, Z. Yan, J. Malik, C. Feichtenhofer. Multiscale Vision Transformers. ICCV, 2021.


原文 Paper




bottom of page