阿里巴巴通義千問推出 Qwen-AgentWorld,AI Agent 可先模擬後果再行動
分類: AI 新品報導 發布時間:
阿里巴巴通義千問(Qwen)團隊近日正式發布 Qwen-AgentWorld,這是一款被定位為「原生語言世界模型」(Native Language World Model)的 AI 模型。與一般大型語言模型不同,它的核心能力不是「接下一句話」,而是預測環境在下一步會如何反應。
什麼是「語言世界模型」?
傳統 LLM 的訓練目標主要是「預測下一個 token」,也就是學會如何流暢地接話。而 世界模型(World Model) 的目標則是讓 AI 學會模擬「世界」:
- 在網頁上點擊「搜尋」,接下來畫面會出現什麼?
- 在 Terminal 輸入一條指令,系統會回傳什麼結果?
- 在手機 App 點擊某個按鈕,介面會怎麼變化?

Qwen-AgentWorld 目前支援單一模型涵蓋七個 Agent 常見的互動環境:
- MCP / Tool Calling
- 網頁搜尋(Search)
- 終端機指令(Terminal)
- 軟體工程任務(SWE)
- 網頁操作(Web)
- 作業系統 GUI 操作(OS)
- Android 手機介面操作
技術亮點:「原生」而非後製
Qwen 團隊強調,這款模型是「原生」的世界模型,而非在一般 LLM 上後續微調而成。它採用三階段訓練流程:
- CPT(持續預訓練):注入大量真實環境互動軌跡(超過 1,000 萬條),讓模型從一開始就學習世界狀態轉移規律。
- SFT(監督微調):強化「下一步狀態預測」的推理能力。
- RL(強化學習):透過混合規則與評分機制,進一步提升模擬的準確度與真實感。
- Qwen-AgentWorld-35B-A3B(MoE 架構,活躍參數約 3B)
- 更大規模的 397B 版本
- 傳統 Agent 多是「看到什麼就直接行動」,容易出錯或浪費步驟。
- 具備世界模型的 Agent 可以先在語言空間中進行多次「試錯」,評估不同行動的後果,再選擇最優策略執行。
Qwen 已將模型開源,包含:
- 技術論文(arXiv)
- 官方技術博客
- Hugging Face 與 ModelScope 模型權重
- GitHub 相關程式碼
Qwen-AgentWorld 的推出,標誌著「世界模型」從理論概念逐步走向實用化。它不再只是讓 AI 更會聊天,而是讓 AI 開始具備對真實環境動態的預測與模擬能力。這對於未來需要長程規劃、複雜工具使用、以及在真實數位環境中自主運作的 AI Agent 來說,具有重要的基礎性意義。


