Human Action Recognition 預測十二碼方向

19分钟前
讀畢需時 6 分鐘

足球十二碼看似是一瞬間的心理戰：射手助跑、門將判斷、起腳、撲救。對人類門將來說，真正能用的時間很短；如果等到球離腳後才反應，多數已經太遲。因此，門將往往要從射手助跑、身體姿態、支撐腳角度和起腳動作中預判方向。

Freire-Obregón 等人在文中提出一個很直接的問題：如果把十二碼射手起腳前後的短片交給 Human Action Recognition（HAR）模型，能否只靠射手動作預測射門方向？他們建立了一個手動標註的 penalty kick dataset，並比較 22 個 HAR backbone，最佳二分類模型在 left/right 預測上達到 63.9% accuracy，高於真實門將選擇方向的 baseline。

本文重點

這篇 paper 的重點，不是說 AI 可以保證撲出十二碼，而是證明射手動作裡確實有可學習的 anticipatory cues。模型不看球的飛行軌跡，也不使用射門結果畫面，而是聚焦於 run-up 與 kicking phase，嘗試在極短時間內判斷球會去左邊還是右邊。

作者的 pipeline 把影片先做 context constraint：用 ByteTrack 抽出射手，移除其他球員、門將、觀眾和背景干擾；再把片段拆成助跑與起腳兩段，用 pre-trained HAR backbone 抽 embedding，最後把兩段 embedding 加上 metadata（例如射手慣用腳、場地方向）輸入 classifier。

一、為何十二碼是 action anticipation 問題

一般 action recognition 是看完一段影片後判斷「發生了甚麼」。Action anticipation 更難，因為它要在事件完全發生之前預測接下來會怎樣。十二碼正好是這類問題的典型場景：射手真正起腳前，動作已經逐步透露意圖，但訊號很細、時間很短，而且有 deception。

對足球分析來說，這個任務有兩個吸引之處。第一，它非常結構化：球、射手、門將、龍門位置都固定在相對清楚的情境。第二，它又充滿不確定性：射手可能臨時改變方向，或刻意用身體假動作誤導門將。

因此，若模型能在這個場景中學到穩定訊號，便不只是十二碼工具，也可以視為 sports-based action anticipation 的 benchmark。

二、資料集：從 1,010 段片篩到 640 段

作者指出，現成公開的 soccer penalty kick dataset 並不足以支援這個任務，因此他們自行從網上蒐集片段。初始資料包含 1,010 段 penalty kick clips，來源關鍵字包括 “penalty-kick shootout” 等。

原始影片大多是 1280 x 720，長度約 3 至 6 秒，涵蓋射手開始助跑前到球到達龍門、門將、門柱或出界。為了讓模型只看動作線索，作者把每段片修剪成 48 frames：前 32 frames 是 run-up，後 16 frames 圍繞 kicking moment（起腳前 8 frames、起腳後 8 frames）。這個設計刻意排除球的飛行軌跡或最後結果。

資料清理亦很重要。視角不合適的片段，例如由門將背後拍攝，或長度不足 64 frames 的片段會被剔除。最後可用資料為 640 段，其中 229 球射向左、303 球射向右、108 球射向中間；另外 metadata 包括射門在球場左／右側，以及射手左右腳資訊。

三、Pipeline：先隔離射手，再抽動作 embedding

paper 的第一步是把畫面中的干擾降到最低。作者用 ByteTrack 偵測並追蹤射手 bounding box，然後把射手區域疊到平均背景 frame 上，令背景相對靜止，只保留射手的動作變化。

這是一個相當「乾淨」的實驗設定。它讓模型少受其他球員、門將、觀眾、球場廣告牌等因素影響，專注於射手本人的身體運動。缺點是，這也意味著 pipeline 依賴良好的預處理；若要即場使用，仍要處理自動追蹤、視角變化和低延遲等工程問題。

第二步是 HAR embedding extraction。作者把 run-up phase 和 kicking phase 分開，分別送入 pre-trained HAR backbone，再用 average pooling 或 max pooling 合成每段影片的 embedding。

第三步是 classifier。模型有兩個 video embedding branch，分別處理助跑與起腳，再與 metadata branch 結合，最後輸出 shot direction。任務有兩種版本：三分類（left / center / right）和二分類（left / right）。

四、比較了哪些模型

作者比較了 22 個 backbone models，涵蓋 7 個架構家族：

C2D
I3D
Slow
SlowFast
Non-Local Network variants（NLN）
X3D
MViTv1 / MViTv2

這些模型本來就是 video action recognition 常見 backbone。差異在於它們如何處理時間資訊：有些偏向 2D spatial features，有些用 3D convolution，有些用 SlowFast 的雙路徑時間尺度，有些則用 multiscale vision transformer 捕捉長距離時序關係。

對十二碼來說，這些時序差異很重要。射手方向線索未必只在最後一格；助跑節奏、身體傾斜、最後幾步步幅和支撐腳方向，都可能要跨 frames 才看得出來。

五、結果：二分類比三分類穩定得多

三分類任務比較困難。最佳模型是 MViTv1，accuracy 為 51.9%；MViTv2 也達到 51.6%。相比之下，真實門將方向選擇的 baseline accuracy 是 46.0%。這表示模型確實學到一些動作訊號，但三分類表現仍不算高。

問題主要在 center class。confusion matrix 顯示，模型對 left 和 right 的正確率分別約 60.4% 與 61.3%，但 center shots 只正確辨識 12.0%。作者認為這與標註語義和視角有關：從鏡頭角度看，真正中路、稍偏左、稍偏右之間未必清楚，人手標註也會有主觀差異。

因此，二分類 left/right 更穩定。最佳模型 MViTv2 S 使用 16 frames、average pooling，達到：

accuracy：63.9%
precision：64.9%
recall：60.2%
F1-score：62.5%

真實門將 baseline 在二分類中是 54.2% accuracy。換言之，在這個資料與設定下，模型對方向判斷比門將實際撲救方向更準。

六、為何 MViTv2 表現較好

paper 對 MViTv2 的解釋是，它能較好捕捉 temporal dependencies 和 contextual relationships。十二碼動作不是單一姿勢分類，而是一段短時間內的序列：起跑方向、身體旋轉、步幅、支撐腳和擺腿動作共同形成訊號。

Average pooling 亦比只取最強特徵的 max pooling 更適合某些設定，因為它保留較完整的時序整體感。對十二碼這種細微動作，過度依賴單一 salient moment 可能不如整段動作平均表示穩定。

另一個實用結果是 metadata 有幫助。作者指出，加入 metadata 令 accuracy 提升約 2 至 3 個百分點，F1-score 提升約 5 個百分點；把 run-up 和 kicking phase 分成兩個 embedding branch，也令 accuracy 提升約 3 至 5 個百分點。這代表「助跑」和「起腳」不是重複訊息，而是各自提供可用線索。

七、這是否代表門將可以靠 AI 即場撲救？

暫時不能這樣理解。這篇 paper 更接近 proof of concept 和 benchmark，而不是已可部署的即場門將助手。

第一，資料集只有 640 個可用樣本，且來自網上影片，視角、畫質、賽事層級和剪輯方式都不完全一致。這有助於模型面對變化，但也帶來 dataset bias 和標註噪聲。

第二，預處理相當理想化。作者先隔離射手、固定背景，並手動切分 run-up 和 kicking phase。真實比賽若要即時使用，需要自動偵測射手、追蹤身體、判斷起腳時刻，而且整個 pipeline 必須低延遲。

第三，模型沒有使用球的軌跡。這是優點也是限制：優點是它真的在學「射手起腳前的動作線索」；限制是它沒有結合門將位置、射門力量、球路高度或 shot quality。實務上，門將決策可能需要把多種訊號合併。

八、實務價值

即使未能即場部署，這類模型仍有不少用途。對球隊分析部門，它可以用於賽前準備：整理某射手的 penalty run-up pattern，評估他在不同角度、慣用腳、助跑節奏下的方向傾向。

對青訓和門將教練，它可以作為 training tool：讓門將練習從射手動作中提早判斷方向，並用模型結果作對照。若模型與人類判斷不同，教練可以回看是哪個身體 cue 造成差異。

對 computer vision 研究者，這份資料集提供了一個小而清楚的 sports action anticipation task。它不像完整比賽理解那麼複雜，但足夠考驗模型是否能從短時間、細微、帶 deception 的動作中提取有效訊號。

九、小結

文中說明了一件有趣的事：十二碼方向不是完全隨機。即使不看球的最終軌跡，只看射手助跑與起腳動作，HAR 模型仍能在 left/right 任務上做到明顯高於機會率，並超過真實門將 baseline。

這不代表 AI 已經破解十二碼心理戰，但它提供了一個可量化的方向：把門將直覺中的「看射手身體語言」，轉化成 video embeddings、metadata 和 action anticipation model。下一步若能加入更多高質量資料、姿態估計、球員個人化模型和即時 tracking，這類方法可能會成為門將訓練與賽前分析的一個有用工具。

Reference

D. Freire-Obregón, O. J. Santana, J. Lorenzo-Navarro, D. Hernández-Sosa, M. Castrillón-Santana. Predicting Soccer Penalty Kick Direction Using Human Action Recognition. arXiv:2507.12617v1 [cs.CV], 2025. https://arxiv.org/abs/2507.12617
J. Artiles, D. Hernández-Sosa, O. Santana, J. Lorenzo-Navarro, D. Freire-Obregón. Classifying soccer ball-on-goal position through kicker shooting action. ICPRAM, 2024.
H. Fan, B. Xiong, K. Mangalam, Y. Li, Z. Yan, J. Malik, C. Feichtenhofer. Multiscale Vision Transformers. ICCV, 2021.