Skyfaring
無人機燈光秀在夜空中排列成太空人形狀
圖片:++ LiN
無人機大型語言模型人工智慧多智能體

說任務,執行蜂群:六款語言模型的無人機指揮實測。

token 消耗量和任務完成率之間,沒有明顯的相關性。話說得多,不代表事情做得好。在一個需要持續行動的任務中,冗長的推理可能只是在原地打轉。
AI 初稿 / skyfaring 編輯校正📅發布:2026年6月5日👁— 次瀏覽

研究者輸入一行文字:「用可用的無人機覆蓋這片 400 乘 300 公尺的矩形區域。」

接下來發生的,不是程式碼被執行。是十架無人機開始起飛,各自飛往不同位置,拉開間距,把那片空間分成可以被相機掃過的幾個區塊。任務完成,它們降落,自動解除武裝。

從指令到行動,中間沒有人寫任何飛控邏輯。

這是博洛尼亞大學今年五月發表的研究,論文名稱是「說任務,執行蜂群」(Say the Mission, Execute the Swarm)。它想回答的問題,不是語言模型「能不能」理解任務,而是「什麼條件下」這種理解才能轉化為可靠的行動。

為了驗證這個問題,他們測試了六款現役語言模型,讓它們分別去指揮十架無人機執行四種不同任務。結果,有些模型交出了接近完美的成績,有些模型什麼都做不成。而最令人意外的,是哪款模型贏了。

讓語言模型指揮無人機,難在哪裡?

把自然語言翻譯成飛行動作,本身不是新想法。

難的是持續性。一個覆蓋任務不是「飛到這個點」,而是「找出要去哪些點、用什麼順序、飛到什麼高度、確認覆蓋到了、然後安全降落」,一步接著一步。整個過程中,無人機的即時狀態、感測器回饋、途中遇到的狀況,都需要被考慮進去。

過去的做法,通常是讓語言模型在任務開始前生成一段飛控程式碼,之後就讓那段程式碼自己跑。這讓語言模型只需要解決一次問題。但它也意味著,任務開始後,系統對新資訊是盲的,程式碼不會回頭問「現在狀況怎樣」。

這篇論文選了另一條路:讓語言模型一路推理到底,持續接收回饋,持續呼叫工具。不生成程式碼,只做決策。

架構:把所有東西變成標準介面

這套系統的設計,繞著一個問題展開:怎麼讓語言模型能夠真正看到每架無人機的狀態,而不只是收到一份固定格式的初始報告?

答案是 W3C Web of Things(WoT)標準。

每架無人機被封裝成一個「Thing」,帶著一份機器可讀的介面說明。語言模型想知道某架無人機現在在哪,就去查這個介面;想讓它起飛,就透過這個介面呼叫起飛動作;想確認它降落了,就再查一次屬性值。所有操作走同一套邏輯,不管底層是什麼型號的無人機或感測器。

這些介面透過 MCP(Model Context Protocol)暴露給語言模型,語言模型透過工具呼叫和整個系統互動。整個推理、行動、觀察的迴圈,就這樣持續轉動。

在這個架構之上,研究者加了一層護欄機制。護欄不是事先寫好的規則,而是在反覆觀察失敗模式之後歸納出來的。常見的失敗包括:模型認為任務完成了,但還有無人機在飛;模型不停呼叫同樣的工具卻沒有推進;或者在沒有驗證狀態的情況下就試圖終止任務。護欄在偵測到這些情境時,把額外的提示塞進對話脈絡,強制模型重新評估。

六款模型,四種任務,差距驚人。

實驗設計了四種任務:帶規劃工具的區域覆蓋、不帶規劃工具的區域覆蓋、隊形控制(故意讓無人機彼此路線交叉,壓力測試碰撞迴避),以及根據土壤濕度和溫度感測器的讀數決定是否灌溉。

六款模型分別是 GPT(5.2)、DeepSeek(V3.2)、GLM(4.7)、Grok(4.1 Fast)、Claude Haiku(4.5),以及開源的 Qwen 3 8B。

以帶工具的區域覆蓋來說,GLM 交出了 100% 的完成率,Grok 70%,DeepSeek 60%。GPT 多次成功飛到指定點,但常常忘記最後要降落和解除武裝,完成率只有 20%。去掉規劃工具之後,GPT 反而跳到 100%,而 Grok 和 Qwen 則跌到 0%。

隊形任務難度更高,需要同時管理多機運動和碰撞迴避。GPT 的完成率最高,60%,GLM 50%。但 GPT 在十次測試中撞機三次,GLM 只撞了兩次。在成功率相近的情況下,GLM 用的 token 數量明顯更少。

灌溉任務最長,要求無人機飛到三個濕度感測器和一個溫度感測器的通訊範圍內讀數,再依規則決定是否觸發灌溉。GLM 達到 90% 完成率,Grok 50%,GPT 和 DeepSeek 分別是 40% 和 30%。有趣的是,GPT 讀到數據後傾向過度觸發灌溉,DeepSeek 則傾向不觸發,兩者的失誤方向完全相反。

最後一個觀察是研究者自己特別標注的:token 消耗量和任務完成率之間,沒有明顯的相關性。

話說得多,不代表事情做得好。在一個需要持續行動的任務中,冗長的推理可能只是在原地打轉。

說任務,離能飛還有多遠?

這篇論文在結論裡說了一件清醒的話:就算是最強的現役語言模型,在沒有任務專屬規劃工具和護欄機制的情況下,要可靠地完成簡單的蜂群任務,仍然很困難。

架構本身的設計,讓這件事從「基本不可能」變成「某些模型可以做到」。但完成率的天花板,取決於語言模型在工具使用和長任務推理上的能力,而這個能力在當前的模型之間,差距仍然很大。

這個差距,不只是參數量的問題。Qwen 3 8B 是六款模型中規模最小的,在不帶工具的覆蓋任務和灌溉任務上完成率都是 0%。Claude Haiku 規模比 Qwen 大,但在灌溉任務上同樣沒有一次完整成功。

真正的能力,藏在工具呼叫的精準度、長脈絡下的狀態追蹤,以及在沒有人監督的情況下,模型知不知道自己什麼時候做錯了。

博洛尼亞大學的研究指向了一個方向:無人機群體或許正在成為一種可以用自然語言操作的基礎設施。指揮官說出任務,系統把語意翻譯成一連串工具呼叫,無人機群去執行。這個架構在理論上是成立的,在模擬環境裡也跑通了。

能不能在真實世界裡可靠地運作,等待的是下一代模型。