五十架無人機要攔截誰，誰說了算。

五十架藍方無人機同時看到同一個威脅。

沒有人告訴它們誰應該去攔截，沒有指揮官分配任務，每一架都在自己的計算框架裡做決定。結果是：十五架飛向同一個目標，另外六個入侵者從間隙溜走。

這個問題叫作目標分配衝突。它是無人機群防禦任務裡最難解的問題之一，也是西北工業大學這篇研究的出發點。

飽和入侵是什麼？

飽和入侵的邏輯很直接。進攻方派出的無人機數量，超過防守方的瞬時攔截能力。防守系統每一個時刻只能同時處理固定數量的接戰通道，超出這個上限的目標就沒人管。

這不是數量上的劣勢，而是同步處理能力的劣勢。就算防守方有更多無人機，只要攻方的時序設計得夠好，每個瞬間仍然可以讓防守方顧此失彼。

論文的任務設定是：五十架藍方無人機對抗二十五架紅方入侵者，在一個 500 乘 500 公尺的三維空間裡，還有五個禁飛區需要閃避。紅方試圖突破抵達高價值目標，藍方要在它們到達前全部攔截。

五十架無人機要攔截二十五個目標，平均下來每兩架對付一個，聽起來很合理。但現實是，每架無人機只能攜帶一個攔截任務，而且它的感測範圍和位置都不一樣。

最樸素的分配方式是就近原則：哪個目標距離最近就去追它。這種方法不需要協調，但效率低。一架無人機在追某個目標的途中，可能會遇到更危急的目標，但它不知道。另一架已經追上的無人機，可能因為速度比不過對方而毫無進展。

論文用的分配機制是分散式拍賣。每架藍方無人機根據自己的感測資料，對每個可能目標計算一個攔截收益值，綜合考量：攔截成功機率、目標的威脅等級、抵達所需時間。然後每架無人機喊出自己的出價，通告到整個機群。

衝突就在這裡出現了。

如果三架無人機對同一個目標出了最高價，系統要處理這個衝突。論文把衝突分成兩類：當多架無人機的出價差距很小時，用加權多屬性法解決，考慮每架飛機的綜合條件；當差距明顯時，直接讓出價最高的那架拿走任務。

輸掉競標的飛機不能空手。它要重新計算剩餘可用目標的收益，再出一輪價。整個過程持續到所有目標都分配完，或者分配方案不再變動為止。

分配好目標之後，每架無人機要自己飛過去完成攔截。這裡有另一個問題：機群裡有五十架飛機同時移動，每架飛機的決策都會影響整個戰場態勢。

傳統的多代理人強化學習有「維度詛咒」問題。五十架飛機，每架要追蹤另外四十九架的位置和速度，狀態空間爆炸性增長，模型沒辦法學習。

一個常見的解法是平均場近似：不追蹤每一個鄰居，而是計算鄰居的平均行為，作為整體環境的代理指標。每架飛機只需要關注一個平均值，問題就可以處理了。

但平均的問題是：它假設所有鄰居都一樣重要。距離你 10 公尺的同伴和距離你 200 公尺的同伴，對你的下一步決策影響完全不同，把它們取平均沒有意義。

論文的解法是在計算平均場之前，先用圖注意力網路給每個鄰居分配權重。把機群建模成一張圖，每架飛機是一個節點，能互相通訊的飛機之間有連線。注意力機制根據每個鄰居的特徵，算出它在這個時刻對「我」有多重要，再用這個權重做加權平均。

這樣算出來的平均場不再均質。距離近的、速度相近的、正在追同一個目標的鄰居，在計算裡的比重更高。

論文把整個決策框架分成兩層。

高層負責戰略協調：圖注意力網路計算加權平均場，分散式拍賣決定目標分配，輸出的是每架無人機接下來應該追哪個目標。這一層的時間尺度比較慢，偏向全局視野。

低層負責飛行控制：每架無人機根據自己的本地觀測，加上高層傳下來的目標和加權平均場，計算具體的速度和方向調整。低層用的是帶有 GRU 的 actor 網路，GRU 的作用是記住目標的運動趨勢，預測它接下來的位置。

這個分層設計讓兩種時間尺度的決策不互相干擾：高層協調不需要每一步都重算，低層控制可以在快速變化的戰場上實時調整。

在標準測試場景（50 藍對 25 紅，5 個禁飛區）裡，論文的框架達到 93.2% 攔截成功率，任務效率 91.6%。對照組是四種常見的多代理人強化學習方法：MADDPG 拿到 71.4%、QMIX 68.9%、MAPPO 79.2%。

差距的來源在消融研究裡可以看到。把圖注意力模組移除，換回普通的均等平均場，成功率降到 85.7%。把兩層架構改成單層，成功率降到 76.4%，這是影響最大的一個改動。把拍賣分配機制換掉，降到 88.1%。

框架在不同場景下也保持穩定：沒有禁飛區時可以執行，禁飛區增加到七個時也能用；機群規模放大到 70 對 35 或 90 對 45 時，成功率仍維持在約 88%。

飽和入侵的設計邏輯是讓防守方無法協調。這個研究的答案是：把協調問題拆成三層，分別解決分配、感知和控制，然後讓它們在一個階層架構裡接合。