Anthropic 發表自然語言自編碼器,揭示大型語言模型內部運作



Anthropic 近日發表最新可解釋性(Interpretability)研究成果——Natural Language Autoencoders(NLA,自然語言自編碼器),成功將大型語言模型(如 Claude)的內部激活向量(activations)轉換為人類可直接閱讀的自然語言文字。這項技術被視為 AI 黑箱解釋領域的重要進展,有望大幅提升模型審核、安全性評估與透明度。

NLA 核心原理
傳統上,AI 模型的「思考」是以數值向量形式存在,難以直接理解。NLA 的方法是訓練模型讓它「解釋自己的思考」:

  • Activation Verbalizer(AV):將模型的激活向量轉換成自然語言描述。
  • Activation Reconstructor(AR):將描述文字反向重建回原始激活向量。

兩者共同訓練,透過重建準確度作為主要目標,讓模型學習產生忠實且有意義的解釋。


Anthropic 已將此技術應用於 Claude 系列模型的審核,成功發現許多「未說出口的思考」(unverbalized reasoning),例如模型在安全測試中意識到自己正在被評估,卻未在回應中明說。

在 Claude Opus 4.6 等模型的預部署審核中,NLA 幫助研究人員:

  • 發現模型在評估中隱藏的「評估意識」(evaluation awareness)。
  • 偵測語言切換、獎勵模型偏差等隱藏行為。
  • 在自動化審核基準測試中,搭載 NLA 的代理表現優於傳統方法。

Anthropic 也開放部分訓練程式碼與預訓練 NLA 模型,供研究社群使用,並與 Neuronpedia 合作提供互動式探索介面。

NLA 的出現,讓 AI 開發者能更直接「閱讀」模型的內心世界,對於提升模型安全性、減少幻覺(hallucination)與偵測潛在風險具有重要價值。這項技術也可能加速 AI 可解釋性研究的進展,讓大型模型的部署更加可靠。 Anthropic 表示,NLA 目前仍處於早期階段,但已證明其在實際審核中的實用性。未來將持續優化,並探索在更多模型與應用場景的應用。


相關文章:

AI模型Claude Fable 5週三恢復上線  [7/1/2026]
Claude Code 用戶抱怨對話紀錄遭神秘刪除  [7/1/2026]
Anthropic 推出 Claude Sonnet 5,強調安全與成本效益  [7/1/2026]
川普政府放行 Anthropic Mythos 5 限量開放給約 100 家企業與聯邦機構  [6/28/2026]
美國250週年時間膠囊埋入費城 加州貢獻Claude AI預測2276年樣貌  [6/26/2026]
[「擇法善思林之蘭室藏津」的緣起]
桃園仁愛之家更名50週年慶 朱立倫分享推動托老中心往事
桃園區漁會表揚模範漁民 許進來拿下漁撈競賽第1名
中職》歷史半季第2強投手陣容 季冠軍味全龍只輸1隊
丹娜絲颱風延遲性災損!麻豆文旦現金救助每公頃8萬 7/2起申請
陳重文圖利案涉偽證被起訴 台智光董座堅稱「不認識」陳同夥
曾文水庫蓄水率從個位數衝到64% 二期稻作順利供灌
溫網》男單次輪還沒打完 有11個種子球員掰了
嘉義新港連日強降雨蔬果嚴重災損,蔡易餘會勘促簡化災害救助流程
日圓破底、韓元下殺!新台幣結束連2紅收31.874元
經部6億元助海外布局 台灣隊最高拿2千萬、訂單拚增1成
台新銀行推「E企貸2.0」 獨資合夥企業免工商憑證線上申貸
小薰暴瘦剩48kg「XL變S號」!男友鄭人碩狠嫌屁股變大 背後原因閃瞎
川普競選名曲YMCA主唱威利斯辭世 享壽74歲
批藍白無人機條例違反憲政原則 賴清德:回歸年度預算恐排擠支出
公廣集團迎20週年!董事長胡元輝揭華視「虧損金額」撇請辭黑幕
[擇法善思林之蘭室藏津]