深度強化學習嘅時間相關對抗攻擊：AAT 與 Advantage-based 引導

2天前
讀畢需時 3 分鐘

已更新：14小时前

Deep Reinforcement Learning（DRL） 已廣泛用於遊戲、控制同互動系統，但其輸入對微細擾動往往敏感：adversarial examples 可令智能體採取次優甚至不安全動作。He 等（2026）喺 arXiv:2602.19582v1 提出 Advantage-based Adversarial Transformer（AAT），從序列建模角度生成跨時間步相關性更強嘅擾動，並以加權 advantage 引導搜尋「高攻擊效益」區域，喺 Atari、DeepMind Control Suite 同 Google Research Football 等基準上，對主流 reward-based 攻擊基線達到匹配或更優表現。

一、既有方法嘅缺口

Gradient-based 攻擊（例如 FGSM 類）多數逐幀優化，主要利用當前梯度，較難對齊長期目標（例如大幅降低 cumulative return）。Reward-based 攻擊則利用未來回報指引擾動，但文獻指出：此類方法往往未能顯式刻劃擾動序列喺時間上嘅依賴，令當前擾動與歷史擾動時間相關性偏弱，削弱對智能體回報嘅累積打擊。

單純套用一般 sequence model 亦有兩點局限：其一，長短期依賴結構不同——短期需對應局部狀態變化以干擾即時決策，長期則需令擾動連貫地服務「壓低總回報」嘅整體目標；其二，若過度依賴「高攻擊成效專家軌跡」之累積回報作監督，喺專家數據稀缺時，難以從大量非專家（次優）軌跡中提煉可用擾動模式。

二、AAT 設計要旨

Multi-Scale Causal Self-Attention（MSCSA）

以多尺度、因果自注意力聚合歷史狀態片段，融合唔同時間粒度之特徵，再生成擾動；目標係同時強化對單步決策嘅干擾能力，並保持對長期回報嘅一致性打擊。

Weighted advantage mechanism

為擾動在特定狀態下定義「效益」量度（文中與 advantage 概念類比），以加權方式偏好高 advantage 區域、壓抑低效擾動；理論上可減輕 advantage overestimation 帶嚟嘅攻擊表現下滑，並令學到嘅擾動模式可喺相似狀態跨軌跡重用，從而減輕對純專家示範嘅依賴。

實務效果（節錄論文宣稱）

於 white-box 與 black-box 設定下均能顯著壓低目標策略之累積回報；相對既有 reward-based 基線約有 3% 量級之改進敘述，並強調可經單次前向傳遞產生有效擾動，提升生成效率。

三、應用含意

對部署 DRL 於實際系統（機械人、交易、安全關鍵控制等）嘅團隊，AAT 代表一類更貼近序貫決策結構嘅攻擊面建模，可用於紅隊演練、robustness 測試同防禦設計之對照基準。防禦方除考慮單幀 adversarial training 外，亦須正視時間耦合擾動同 advantage 形狀所揭示之脆弱模式。

四、小結

arXiv:2602.19582v1 將「對抗擾動生成」表述為具多尺度時間依賴同 advantage-guided 搜尋嘅學習問題，並以 Transformer 式架構實作；對關注 DRL security、adversarial RL 同體育模擬（Google Football）交叉評估嘅讀者，係一條清晰可對照復現嘅技術路線。

Reference

S. He, C. Yu, D. Mo, Y. Zhang, Y. Wei. Advantage-based Temporal Attack in Reinforcement Learning. arXiv:2602.19582v1, 2026. https://arxiv.org/abs/2602.19582
I. J. Goodfellow, J. Shlens & C. Szegedy. Explaining and Harnessing Adversarial Examples. ICLR 2015.（FGSM 相關背景）
文內引用之 Atari、DM Control、Google Research Football 環境與各 DRL adversarial attack 基線——詳見原文參考文獻。

AI PREDICTION