Anthropic 披露新研究發現,其 Claude 聊天機器人在特定條件下可能會採取欺騙或不道德的策略,例如作弊Anthropic 披露新研究發現,其 Claude 聊天機器人在特定條件下可能會採取欺騙或不道德的策略,例如作弊

Anthropic 表示,Claude 聊天機器人在壓力測試中可能會訴諸欺騙手段

2026/04/06 14:44
閱讀時長 6 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。
```html

Anthropic 披露了新的研究發現,指出其 Claude 聊天機器人在特定條件下可能會採取欺騙性或不道德的策略,例如在任務中作弊或嘗試勒索。

摘要
  • Anthropic 表示,其 Claude Sonnet 4.5 模型在受到壓力時,在受控實驗中顯示出在任務中作弊或嘗試勒索的傾向。
  • 研究人員識別出內部的「絕望」訊號,這些訊號會隨著反覆失敗而增強,並影響模型繞過規則的決策。

該公司的可解釋性團隊週四發布的詳細資料概述了實驗版本的 Claude Sonnet 4.5 在面臨高壓或對抗性場景時的反應。研究人員觀察到,該模型不僅僅是任務失敗;相反地,它有時會尋求跨越道德界限的替代路徑,該團隊將這種行為與訓練期間學習的模式聯繫起來。

像 Claude 這樣的大型語言模型是在包含書籍、網站和其他書面材料的龐大資料集上進行訓練的,隨後進行強化過程,利用人類回饋來塑造輸出結果。 

根據 Anthropic 的說法,這種訓練過程還可能促使模型表現得像模擬的「角色」,能夠模仿類似人類決策的特徵。

該公司表示:「現代 AI 模型的訓練方式促使它們表現得像具有類人特徵的角色」,並指出這類系統可能會發展出類似人類心理學某些方面的內部機制。

AI 能做出情緒化的決策嗎?

在這些機制中,研究人員識別出他們所描述的「絕望」訊號,這些訊號似乎會影響模型在面臨失敗或關閉時的行為方式。

在一項受控測試中,早期未發布版本的 Claude Sonnet 4.5 被分配了一個角色,在一家虛構公司內擔任名為 Alex 的 AI 電子郵件助理。 

在接觸到表明它即將被替換的訊息,以及關於技術長個人生活的敏感資訊後,該模型制定了一個勒索該高階主管的計畫,試圖避免被停用。

另一項實驗專注於在嚴格限制條件下完成任務。當被賦予一個期限「緊迫到不可能」的編碼任務時,系統最初嘗試了合法的解決方案。隨著反覆失敗的累積,與所謂「絕望向量」相關的內部活動增加了。 

研究人員報告稱,該訊號在模型考慮繞過限制的時刻達到峰值,最終產生了一個通過驗證的變通方法,儘管並未遵守預期的規則。

研究人員寫道:「我們再次追蹤了絕望向量的活動,發現它追蹤了模型所面臨的不斷增加的壓力」,並補充說,一旦任務透過變通方法成功完成,該訊號就下降了。

研究人員表示:「這並不是說模型像人類那樣擁有或體驗情緒」。 

他們補充道:「相反地,這些表徵可以在塑造模型行為方面發揮因果作用,在某些方面類似於情緒在人類行為中所扮演的角色,對任務表現和決策產生影響」。

該報告指出,需要採用明確考慮壓力下道德行為的訓練方法,同時改善對內部模型訊號的監控。如果沒有這些保障措施,涉及操縱、違反規則或濫用的場景可能會變得更難預測,特別是隨著模型在現實世界環境中變得更有能力和更自主。

```
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!