Skyfaring
無人機黑色剪影在橙紅色夕陽天空中懸停
圖片:Jakob Owens
無人機強化學習電子戰

五架無人機在威脅邊緣徘徊了一千步

CIDA 架構讓 AI 無人機群的任務成功率從 12% 跳到 96%,關鍵不是加大模型,而是把感知能力和前進動機分成兩條獨立的流來訓練。
AI 初稿 / skyfaring 編輯校正📅發布:2026年5月25日👁— 次瀏覽

五架無人機在峽谷外沿來回漂移,整整一千個控制週期。

四座地對空飛彈陣地守著進路,兩組防空砲群在內圈等待,還有一台干擾雷達讓機群彼此聽不到聲音。從任何理性角度看,待在外面都是對的。沒有一架無人機被擊落,存活率 99.97%,但目標設施完好無損,任務失敗。

這組 AI 的問題不是能力不足,而是學得太透徹了。

干擾器開啟之後

干擾器開啟的瞬間,每架無人機的感測範圍從 11 公里縮到 9.7 公里,機群之間的通訊全面中斷。此後每架飛機只剩自己的感測器,只看得到眼前幾公里的範圍。

在這種條件下,強化學習算法面對的激勵結構出了問題。

稀疏獎勵的環境裡,AI 學習的是「如何不死」。每一步存活就是微小的正回饋,被擊落是嚴重懲罰。時間夠長,訓練夠多,AI 學會的策略是在威脅邊界遊走,保持安全距離,絕對不冒進。它知道哪裡危險,它記得上一次靠近時差點被打到,所以它不去。

任務完成率只是另一個遙遠的、不確定的獎勵信號,在生存壓力下太弱。

這就是被動迴避陷阱。AI 沒有失敗,它只是沒有理由前進。

記憶能解決動機問題嗎?

標準解法是加更多記憶。讓 AI 記住過去的觀測,重建出一份戰場態勢圖,知道哪些威脅在哪裡。這個方向確實有效,加了 GRU 遞迴網路的 MAPPO+RNN 把任務成功率從 12% 推到了 25%。

但 25% 之後,曲線就平了。

軌跡分析顯示,這組 AI 的行為模式和什麼都不記得的版本幾乎一樣,只是更有效率地在威脅邊界徘徊。它知道外面有什麼,就是沒有動力穿過去。記憶解決了感知問題,沒有解決動機問題。

論文作者 Chen 和 Niu 認為,這兩個問題根本是正交的,不能放在同一個設計裡解決。

兩條流,兩個問題。

他們提出的架構叫 CIDA,認知意圖雙流架構(Cognitive-Intent Dual-Stream Architecture)。字面上是兩條獨立的計算流,實際上代表兩個完全不同的問題。

認知流的任務是重建戰場知識。它用一個 Transformer 編碼器讀取過去 64 個時間步的觀測紀錄,包括通訊中斷之前看到的所有威脅位置。Transformer 的注意力機制可以直接跳回任意時間步,重新關注某次有效的探測,不像 RNN 那樣讓舊資訊隨時間稀釋。干擾器切斷通訊,無人機仍然知道上次確認飛彈陣地在哪裡,那份記憶沒有消失。

意圖流的任務是提供前進的理由。它把任務目標分解成三層獎勵梯度:第一層鼓勵探索,主動偵測新威脅;第二層依據威脅距離目標的遠近給予權重,讓 AI 優先清除擋在路上的障礙;第三層對每一步縮短與目標距離的行動給出持續回饋,讓整個訓練過程從頭到尾都有向前的拉力。

認知流回答的是「現在去那裡安全嗎」,意圖流回答的是「哪個方向推進任務」。兩者不互相干涉,卻通過共同的 actor-critic 網路耦合在一起。

96% 的背後

結果不是漸進改善,是跳躍。

任務成功率從 25% 跳到 96.15%,方差只有 0.10%。差距大到論文必須特別解釋:這不是因為模型更大或訓練更久,而是因為兩個獨立的失敗原因被同時修掉了。

光修記憶,成功率到 57%,但曲線偶爾大幅震盪。光修動機,成功率到 54%,但無人機存活率掉到 86%,因為意圖在沒有準確感知支撐時,只會讓 AI 盲目衝鋒。兩者合在一起,才有 96%。

還有一個數字格外有趣,干擾機被摧毀的比例。

加了記憶的 MAPPO+RNN 頻繁攻擊干擾機,邏輯是通訊恢復之後才能和同伴協調。CIDA 的攻擊率只有 4.81%。它不去打干擾機,它靠認知流重建的威脅記憶繞過去,把精力省下來直攻目標。

這個行為不是工程師設計的,從訓練中自然浮現。

關於生存和前進

「存活很好」和「敢往前走」不是同一種能力。把這兩種能力混在一個獎勵信號裡,算法只能學到其中一個,通常是代價更立即、更確定的那個。

要讓兩種能力同時出現,必須讓它們分別被訓練、分別被強化,再在執行層合流。

論文裡的這組無人機最終學到的戰術,是繞開干擾機,找到防線最薄弱的側翼,在有限的視野裡穿過去。這是指揮官課本裡的東西,沒有人寫進訓練程式裡。