Human Action Recognition 預測十二碼方向
- 19分钟前
- 讀畢需時 6 分鐘
足球十二碼看似是一瞬間的心理戰:射手助跑、門將判斷、起腳、撲救。對人類門將來說,真正能用的時間很短;如果等到球離腳後才反應,多數已經太遲。因此,門將往往要從射手助跑、身體姿態、支撐腳角度和起腳動作中預判方向。
Freire-Obregón 等人在文中提出一個很直接的問題:如果把十二碼射手起腳前後的短片交給 Human Action Recognition(HAR)模型,能否只靠射手動作預測射門方向?他們建立了一個手動標註的 penalty kick dataset,並比較 22 個 HAR backbone,最佳二分類模型在 left/right 預測上達到 63.9% accuracy,高於真實門將選擇方向的 baseline。
本文重點
這篇 paper 的重點,不是說 AI 可以保證撲出十二碼,而是證明射手動作裡確實有可學習的 anticipatory cues。模型不看球的飛行軌跡,也不使用射門結果畫面,而是聚焦於 run-up 與 kicking phase,嘗試在極短時間內判斷球會去左邊還是右邊。
作者的 pipeline 把影片先做 context constraint:用 ByteTrack 抽出射手,移除其他球員、門將、觀眾和背景干擾;再把片段拆成助跑與起腳兩段,用 pre-trained HAR backbone 抽 embedding,最後把兩段 embedding 加上 metadata(例如射手慣用腳、場地方向)輸入 classifier。
一、為何十二碼是 action anticipation 問題
一般 action recognition 是看完一段影片後判斷「發生了甚麼」。Action anticipation 更難,因為它要在事件完全發生之前預測接下來會怎樣。十二碼正好是這類問題的典型場景:射手真正起腳前,動作已經逐步透露意圖,但訊號很細、時間很短,而且有 deception。
對足球分析來說,這個任務有兩個吸引之處。第一,它非常結構化:球、射手、門將、龍門位置都固定在相對清楚的情境。第二,它又充滿不確定性:射手可能臨時改變方向,或刻意用身體假動作誤導門將。
因此,若模型能在這個場景中學到穩定訊號,便不只是十二碼工具,也可以視為 sports-based action anticipation 的 benchmark。
二、資料集:從 1,010 段片篩到 640 段
作者指出,現成公開的 soccer penalty kick dataset 並不足以支援這個任務,因此他們自行從網上蒐集片段。初始資料包含 1,010 段 penalty kick clips,來源關鍵字包括 “penalty-kick shootout” 等。
原始影片大多是 1280 x 720,長度約 3 至 6 秒,涵蓋射手開始助跑前到球到達龍門、門將、門柱或出界。為了讓模型只看動作線索,作者把每段片修剪成 48 frames:前 32 frames 是 run-up,後 16 frames 圍繞 kicking moment(起腳前 8 frames、起腳後 8 frames)。這個設計刻意排除球的飛行軌跡或最後結果。
資料清理亦很重要。視角不合適的片段,例如由門將背後拍攝,或長度不足 64 frames 的片段會被剔除。最後可用資料為 640 段,其中 229 球射向左、303 球射向右、108 球射向中間;另外 metadata 包括射門在球場左/右側,以及射手左右腳資訊。
三、Pipeline:先隔離射手,再抽動作 embedding
paper 的第一步是把畫面中的干擾降到最低。作者用 ByteTrack 偵測並追蹤射手 bounding box,然後把射手區域疊到平均背景 frame 上,令背景相對靜止,只保留射手的動作變化。
這是一個相當「乾淨」的實驗設定。它讓模型少受其他球員、門將、觀眾、球場廣告牌等因素影響,專注於射手本人的身體運動。缺點是,這也意味著 pipeline 依賴良好的預處理;若要即場使用,仍要處理自動追蹤、視角變化和低延遲等工程問題。
第二步是 HAR embedding extraction。作者把 run-up phase 和 kicking phase 分開,分別送入 pre-trained HAR backbone,再用 average pooling 或 max pooling 合成每段影片的 embedding。
第三步是 classifier。模型有兩個 video embedding branch,分別處理助跑與起腳,再與 metadata branch 結合,最後輸出 shot direction。任務有兩種版本:三分類(left / center / right)和二分類(left / right)。
四、比較了哪些模型
作者比較了 22 個 backbone models,涵蓋 7 個架構家族:
C2D
I3D
Slow
SlowFast
Non-Local Network variants(NLN)
X3D
MViTv1 / MViTv2
這些模型本來就是 video action recognition 常見 backbone。差異在於它們如何處理時間資訊:有些偏向 2D spatial features,有些用 3D convolution,有些用 SlowFast 的雙路徑時間尺度,有些則用 multiscale vision transformer 捕捉長距離時序關係。
對十二碼來說,這些時序差異很重要。射手方向線索未必只在最後一格;助跑節奏、身體傾斜、最後幾步步幅和支撐腳方向,都可能要跨 frames 才看得出來。
五、結果:二分類比三分類穩定得多
三分類任務比較困難。最佳模型是 MViTv1,accuracy 為 51.9%;MViTv2 也達到 51.6%。相比之下,真實門將方向選擇的 baseline accuracy 是 46.0%。這表示模型確實學到一些動作訊號,但三分類表現仍不算高。
問題主要在 center class。confusion matrix 顯示,模型對 left 和 right 的正確率分別約 60.4% 與 61.3%,但 center shots 只正確辨識 12.0%。作者認為這與標註語義和視角有關:從鏡頭角度看,真正中路、稍偏左、稍偏右之間未必清楚,人手標註也會有主觀差異。
因此,二分類 left/right 更穩定。最佳模型 MViTv2 S 使用 16 frames、average pooling,達到:
accuracy:63.9%
precision:64.9%
recall:60.2%
F1-score:62.5%
真實門將 baseline 在二分類中是 54.2% accuracy。換言之,在這個資料與設定下,模型對方向判斷比門將實際撲救方向更準。
六、為何 MViTv2 表現較好
paper 對 MViTv2 的解釋是,它能較好捕捉 temporal dependencies 和 contextual relationships。十二碼動作不是單一姿勢分類,而是一段短時間內的序列:起跑方向、身體旋轉、步幅、支撐腳和擺腿動作共同形成訊號。
Average pooling 亦比只取最強特徵的 max pooling 更適合某些設定,因為它保留較完整的時序整體感。對十二碼這種細微動作,過度依賴單一 salient moment 可能不如整段動作平均表示穩定。
另一個實用結果是 metadata 有幫助。作者指出,加入 metadata 令 accuracy 提升約 2 至 3 個百分點,F1-score 提升約 5 個百分點;把 run-up 和 kicking phase 分成兩個 embedding branch,也令 accuracy 提升約 3 至 5 個百分點。這代表「助跑」和「起腳」不是重複訊息,而是各自提供可用線索。
七、這是否代表門將可以靠 AI 即場撲救?
暫時不能這樣理解。這篇 paper 更接近 proof of concept 和 benchmark,而不是已可部署的即場門將助手。
第一,資料集只有 640 個可用樣本,且來自網上影片,視角、畫質、賽事層級和剪輯方式都不完全一致。這有助於模型面對變化,但也帶來 dataset bias 和標註噪聲。
第二,預處理相當理想化。作者先隔離射手、固定背景,並手動切分 run-up 和 kicking phase。真實比賽若要即時使用,需要自動偵測射手、追蹤身體、判斷起腳時刻,而且整個 pipeline 必須低延遲。
第三,模型沒有使用球的軌跡。這是優點也是限制:優點是它真的在學「射手起腳前的動作線索」;限制是它沒有結合門將位置、射門力量、球路高度或 shot quality。實務上,門將決策可能需要把多種訊號合併。
八、實務價值
即使未能即場部署,這類模型仍有不少用途。對球隊分析部門,它可以用於賽前準備:整理某射手的 penalty run-up pattern,評估他在不同角度、慣用腳、助跑節奏下的方向傾向。
對青訓和門將教練,它可以作為 training tool:讓門將練習從射手動作中提早判斷方向,並用模型結果作對照。若模型與人類判斷不同,教練可以回看是哪個身體 cue 造成差異。
對 computer vision 研究者,這份資料集提供了一個小而清楚的 sports action anticipation task。它不像完整比賽理解那麼複雜,但足夠考驗模型是否能從短時間、細微、帶 deception 的動作中提取有效訊號。
九、小結
文中說明了一件有趣的事:十二碼方向不是完全隨機。即使不看球的最終軌跡,只看射手助跑與起腳動作,HAR 模型仍能在 left/right 任務上做到明顯高於機會率,並超過真實門將 baseline。
這不代表 AI 已經破解十二碼心理戰,但它提供了一個可量化的方向:把門將直覺中的「看射手身體語言」,轉化成 video embeddings、metadata 和 action anticipation model。下一步若能加入更多高質量資料、姿態估計、球員個人化模型和即時 tracking,這類方法可能會成為門將訓練與賽前分析的一個有用工具。
Reference
D. Freire-Obregón, O. J. Santana, J. Lorenzo-Navarro, D. Hernández-Sosa, M. Castrillón-Santana. Predicting Soccer Penalty Kick Direction Using Human Action Recognition. arXiv:2507.12617v1 [cs.CV], 2025. https://arxiv.org/abs/2507.12617
J. Artiles, D. Hernández-Sosa, O. Santana, J. Lorenzo-Navarro, D. Freire-Obregón. Classifying soccer ball-on-goal position through kicker shooting action. ICPRAM, 2024.
H. Fan, B. Xiong, K. Mangalam, Y. Li, Z. Yan, J. Malik, C. Feichtenhofer. Multiscale Vision Transformers. ICCV, 2021.
原文 Paper





