五架無人機在威脅邊緣徘徊了一千步

五架無人機在峽谷外沿來回漂移，整整一千個控制週期。

四座地對空飛彈陣地守著進路，兩組防空砲群在內圈等待，還有一台干擾雷達讓機群彼此聽不到聲音。從任何理性角度看，待在外面都是對的。沒有一架無人機被擊落，存活率 99.97%，但目標設施完好無損，任務失敗。

這組 AI 的能力沒有問題，是學得太透徹了。

干擾器開啟之後

干擾器開啟的瞬間，每架無人機的感測範圍從 11 公里縮到 9.7 公里，機群之間的通訊全面中斷。此後每架飛機只剩自己的感測器，只看得到眼前幾公里的範圍。

在這種條件下，強化學習演算法面對的激勵結構出了問題。

稀疏獎勵的環境裡，AI 學習的是「如何不死」。每一步存活就是微小的正回饋，被擊落是嚴重懲罰。時間夠長，訓練夠多，AI 學會的策略是在威脅邊界遊走，保持安全距離，絕對不冒進。它知道哪裡危險，它記得上一次靠近時差點被打到，所以它不去。

任務完成率只是另一個遙遠的、不確定的獎勵信號，在生存壓力下太弱。

這就是被動迴避陷阱。AI 沒有失敗，它只是沒有理由前進。

記憶能解決動機問題嗎？

標準解法是加更多記憶。讓 AI 記住過去的觀測，重建出一份戰場態勢圖，知道哪些威脅在哪裡。這個方向確實有效，加了 GRU 遞迴網路的 MAPPO+RNN 把任務成功率從 12% 推到了 25%。

但 25% 之後，曲線就平了。

軌跡分析顯示，這組 AI 的行為模式和什麼都不記得的版本幾乎一樣，只是更有效率地在威脅邊界徘徊。它知道外面有什麼，就是沒有動力穿過去。記憶解決了感知問題，沒有解決動機問題。

論文作者 Chen 和 Niu 認為，這兩個問題根本是正交的，不能放在同一個設計裡解決。

兩條流，兩個問題。

他們提出的架構叫 CIDA，認知意圖雙流架構（Cognitive-Intent Dual-Stream Architecture）。字面上是兩條獨立的計算流，實際上代表兩個完全不同的問題。

認知流的任務是重建戰場知識。它用一個 Transformer 編碼器讀取過去 64 個時間步的觀測紀錄，包括通訊中斷之前看到的所有威脅位置。Transformer 的注意力機制可以直接跳回任意時間步，重新關注某次有效的探測，不像 RNN 那樣讓舊資訊隨時間稀釋。干擾器切斷通訊，無人機仍然知道上次確認飛彈陣地在哪裡，那份記憶沒有消失。

意圖流的任務是提供前進的理由。它把任務目標分解成三層獎勵梯度：第一層鼓勵探索，主動偵測新威脅；第二層依據威脅距離目標的遠近給予權重，讓 AI 優先清除擋在路上的障礙；第三層對每一步縮短與目標距離的行動給出持續回饋，讓整個訓練過程從頭到尾都有向前的拉力。

認知流回答的是「現在去那裡安全嗎」，意圖流回答的是「哪個方向推進任務」。兩者不互相干涉，卻通過共同的 actor-critic 網路耦合在一起。

96% 的背後

結果是跳躍式的。

任務成功率從 25% 跳到 96.15%，方差只有 0.10%。差距大到論文必須特別解釋：這不是因為模型更大或訓練更久，而是因為兩個獨立的失敗原因被同時修掉了。

光修記憶，成功率到 57%，但曲線偶爾大幅震盪。光修動機，成功率到 54%，但無人機存活率掉到 86%，因為意圖在沒有準確感知支撐時，只會讓 AI 盲目衝鋒。兩者合在一起，才有 96%。

還有一個數字格外有趣，干擾機被摧毀的比例。

加了記憶的 MAPPO+RNN 頻繁攻擊干擾機，邏輯是通訊恢復之後才能和同伴協調。CIDA 的攻擊率只有 4.81%。它不去打干擾機，它靠認知流重建的威脅記憶繞過去，把精力省下來直攻目標。

這個行為不是工程師設計的，從訓練中自然浮現。

關於生存和前進

「存活很好」和「敢往前走」是兩種能力。把這兩種能力混在一個獎勵信號裡，演算法只能學到其中一個，通常是代價更立即、更確定的那個。

要讓兩種能力同時出現，必須讓它們分別被訓練、分別被強化，再在執行層合流。

論文裡的這組無人機最終學到的戰術，是繞開干擾機，找到防線最薄弱的側翼，在有限的視野裡穿過去。這是指揮官課本裡的東西，沒有人寫進訓練程式裡。