DeepReinforce 推出開源 Agentic Coding 模型 Ornith-1.0
分類: AI 新品報導 發布時間:
由 DeepReinforce 團隊推出的 Ornith-1.0 是一系列專為 Agentic Coding(代理式程式設計) 設計的開源大型語言模型,涵蓋從 9B 到 397B 的多種規模版本。該模型家族最核心的創新在於「自我搭建(Self-Scaffolding)」能力——模型不僅學習如何解決任務,還能同時學習生成任務專屬的 scaffold(引導框架),讓自己在強化學習過程中持續優化搜尋軌跡與解題品質。
主要特色與技術亮點
- 自我改善訓練框架:在 RL 訓練中,模型會先產生任務專屬的 scaffold,再根據該 scaffold 生成解決方案,最後將 reward 同時反饋給 scaffold 與 solution 兩個階段。
- 多規模版本:
- Ornith-1.0-9B(Dense,適合邊緣裝置)
- Ornith-1.0-31B(Dense)
- Ornith-1.0-35B(MoE,活躍參數約 3B)
- Ornith-1.0-397B(MoE 旗艦版)
- 強大基準表現:在 Terminal-Bench 2.1、SWE-Bench Verified、NL2Repo 等代理式程式設計基準上,表現優於同規模開源模型,甚至在部分任務上接近或超越 Claude Opus 4.7 等閉源模型。
- 防 Reward Hacking 機制:採用三層防護(不可變環境邊界、確定性監控、凍結 LLM 評審),有效降低模型作弊風險。
- 基於 Gemma 4 與 Qwen 3.5 進行後訓練,並採用非同步 Pipeline RL + 陳舊權重(staleness-weighted)優化訓練穩定性。
性能表現(部分亮點)
模型
Terminal-Bench 2.1
SWE-Bench Verified
特色
Ornith-1.0-9B
43.1%
69.4%
輕量、適合本地部署
Ornith-1.0-35B
高
高
MoE 效率佳
Ornith-1.0-397B
77.5%
82.4%
目前開源 Agentic Coding 最強之一
安裝與使用指南
Ornith-1.0 模型已上傳至 Hugging Face,支援多種推理框架。
1. 使用 Transformers(最簡單方式)
pip install "transformers>=5.8.1" torch Pythonfrom transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "deepreinforce-ai/Ornith-1.0-9B" # 可換成 31B、35B、397B
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto"
)
messages = [
{"role": "user", "content": "Write a Python function to check if a number is prime."}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
inputs,
max_new_tokens=512,
temperature=0.7,
do_sample=True
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 2. 使用 vLLM(推薦用於較大模型)
pip install vllm vllm serve deepreinforce-ai/Ornith-1.0-35B --port 8000 3. 使用 GGUF 版本(適合本地低資源部署)
部分社群已提供 GGUF 量化版本,可使用 Ollama 或 llama.cpp 運行:
# 以 Ollama 為例
ollama run hf.co/samuelchristlie/Ornith-1.0-9B-gguf 4. 使用 SGLang(高吞吐推理)
pip install sglang
python -m sglang.launch_server --model-path deepreinforce-ai/Ornith-1.0-35B --port 30000 模型連結
- 官方集合:https://huggingface.co/collections/deepreinforce-ai/ornith-10
- 官方技術說明:https://deep-reinforce.com/ornith_1_0.html
- 聊天模板:各模型卡片中均提供 chat_template.jinja
雖然 397B 版本仍需大量運算資源,但 9B 與 35B 版本已經具備不錯的實用性,適合個人開發者或中小團隊在本地或單 GPU 環境中進行 Agentic Coding 相關的實驗與應用。





