阿里巴巴通義千問推出 Qwen-AgentWorld,AI Agent 可先模擬後果再行動



阿里巴巴通義千問(Qwen)團隊近日正式發布 Qwen-AgentWorld,這是一款被定位為「原生語言世界模型」(Native Language World Model)的 AI 模型。與一般大型語言模型不同,它的核心能力不是「接下一句話」,而是預測環境在下一步會如何反應。

什麼是「語言世界模型」?

傳統 LLM 的訓練目標主要是「預測下一個 token」,也就是學會如何流暢地接話。而 世界模型(World Model) 的目標則是讓 AI 學會模擬「世界」:

  • 在網頁上點擊「搜尋」,接下來畫面會出現什麼?
  • 在 Terminal 輸入一條指令,系統會回傳什麼結果?
  • 在手機 App 點擊某個按鈕,介面會怎麼變化?

Qwen-AgentWorld 就是針對這類「環境動態預測」進行訓練的模型。它能讓 AI Agent 在實際執行動作之前,先在「腦中」模擬不同行動可能帶來的後果,進而做出更聰明的決策。


Qwen-AgentWorld 目前支援單一模型涵蓋七個 Agent 常見的互動環境:

  • MCP / Tool Calling
  • 網頁搜尋(Search)
  • 終端機指令(Terminal)
  • 軟體工程任務(SWE)
  • 網頁操作(Web)
  • 作業系統 GUI 操作(OS)
  • Android 手機介面操作

這也是目前少數能用單一模型統一模擬多種真實環境動態的世界模型。

技術亮點:「原生」而非後製

Qwen 團隊強調,這款模型是「原生」的世界模型,而非在一般 LLM 上後續微調而成。它採用三階段訓練流程:

  • CPT(持續預訓練):注入大量真實環境互動軌跡(超過 1,000 萬條),讓模型從一開始就學習世界狀態轉移規律。
  • SFT(監督微調):強化「下一步狀態預測」的推理能力。
  • RL(強化學習):透過混合規則與評分機制,進一步提升模擬的準確度與真實感。

目前已釋出兩個版本:

  • Qwen-AgentWorld-35B-A3B(MoE 架構,活躍參數約 3B)
  • 更大規模的 397B 版本

這項技術的真正價值在於讓 AI Agent 具備「內部模擬」能力:

  • 傳統 Agent 多是「看到什麼就直接行動」,容易出錯或浪費步驟。
  • 具備世界模型的 Agent 可以先在語言空間中進行多次「試錯」,評估不同行動的後果,再選擇最優策略執行。

這被視為朝向更可靠、更具規劃能力的通用 AI Agent 邁出的重要一步。

Qwen 已將模型開源,包含:

  • 技術論文(arXiv)
  • 官方技術博客
  • Hugging Face 與 ModelScope 模型權重
  • GitHub 相關程式碼

開發者與研究者可直接下載使用,進行 Agent 相關的模擬與訓練實驗。

Qwen-AgentWorld 的推出,標誌著「世界模型」從理論概念逐步走向實用化。它不再只是讓 AI 更會聊天,而是讓 AI 開始具備對真實環境動態的預測與模擬能力。這對於未來需要長程規劃、複雜工具使用、以及在真實數位環境中自主運作的 AI Agent 來說,具有重要的基礎性意義。