top of page

深度強化學習嘅時間相關對抗攻擊:AAT 與 Advantage-based 引導

  • 2天前
  • 讀畢需時 3 分鐘

已更新:14小时前

Deep Reinforcement Learning(DRL) 已廣泛用於遊戲、控制同互動系統,但其輸入對微細擾動往往敏感:adversarial examples 可令智能體採取次優甚至不安全動作。He 等(2026)喺 arXiv:2602.19582v1 提出 Advantage-based Adversarial Transformer(AAT),從序列建模角度生成跨時間步相關性更強嘅擾動,並以加權 advantage 引導搜尋「高攻擊效益」區域,喺 AtariDeepMind Control SuiteGoogle Research Football 等基準上,對主流 reward-based 攻擊基線達到匹配或更優表現。


一、既有方法嘅缺口

Gradient-based 攻擊(例如 FGSM 類)多數逐幀優化,主要利用當前梯度,較難對齊長期目標(例如大幅降低 cumulative return)。Reward-based 攻擊則利用未來回報指引擾動,但文獻指出:此類方法往往未能顯式刻劃擾動序列喺時間上嘅依賴,令當前擾動與歷史擾動時間相關性偏弱,削弱對智能體回報嘅累積打擊。

單純套用一般 sequence model 亦有兩點局限:其一,長短期依賴結構不同——短期需對應局部狀態變化以干擾即時決策,長期則需令擾動連貫地服務「壓低總回報」嘅整體目標;其二,若過度依賴「高攻擊成效專家軌跡」之累積回報作監督,喺專家數據稀缺時,難以從大量非專家(次優)軌跡中提煉可用擾動模式。


二、AAT 設計要旨

  1. Multi-Scale Causal Self-Attention(MSCSA)

多尺度因果自注意力聚合歷史狀態片段,融合唔同時間粒度之特徵,再生成擾動;目標係同時強化對單步決策嘅干擾能力,並保持對長期回報嘅一致性打擊。

  1. Weighted advantage mechanism

為擾動在特定狀態下定義「效益」量度(文中與 advantage 概念類比),以加權方式偏好高 advantage 區域、壓抑低效擾動;理論上可減輕 advantage overestimation 帶嚟嘅攻擊表現下滑,並令學到嘅擾動模式可喺相似狀態跨軌跡重用,從而減輕對純專家示範嘅依賴。

  1. 實務效果(節錄論文宣稱)

white-boxblack-box 設定下均能顯著壓低目標策略之累積回報;相對既有 reward-based 基線約有 3% 量級之改進敘述,並強調可經單次前向傳遞產生有效擾動,提升生成效率。


三、應用含意

對部署 DRL 於實際系統(機械人、交易、安全關鍵控制等)嘅團隊,AAT 代表一類更貼近序貫決策結構嘅攻擊面建模,可用於紅隊演練robustness 測試同防禦設計之對照基準。防禦方除考慮單幀 adversarial training 外,亦須正視時間耦合擾動同 advantage 形狀所揭示之脆弱模式。


四、小結

arXiv:2602.19582v1 將「對抗擾動生成」表述為具多尺度時間依賴advantage-guided 搜尋嘅學習問題,並以 Transformer 式架構實作;對關注 DRL securityadversarial RL 同體育模擬(Google Football)交叉評估嘅讀者,係一條清晰可對照復現嘅技術路線。

Reference

  1. S. He, C. Yu, D. Mo, Y. Zhang, Y. Wei. Advantage-based Temporal Attack in Reinforcement Learning. arXiv:2602.19582v1, 2026. https://arxiv.org/abs/2602.19582

  2. I. J. Goodfellow, J. Shlens & C. Szegedy. Explaining and Harnessing Adversarial Examples. ICLR 2015.(FGSM 相關背景)

  3. 文內引用之 AtariDM ControlGoogle Research Football 環境與各 DRL adversarial attack 基線——詳見原文參考文獻。




bottom of page