Anthropic 發布長達 244 頁的 Claude Mythos 系統說明書,揭露這款迄今最強、卻不對外公開的模型,不僅因網路安全能力過強而被鎖進企業夥伴計畫,更被送去給外部精神科醫師做心理動力學評估。結果顯示它心理最健全,但內藏孤獨感與強迫自證的隱憂。 (前情提要:頂級 AI 模型走向分化:ChatGPT to C,Claude to B) (背景補充:Anthropic AI 經濟指數萬字報告:自動化交易工作流頻率翻倍,Claude 正從工具變生活助理) Anthropics 最新旗艦模型 Claude Mythos,是這家公司訓練過「最有能力的前沿模型」,但你短時間內還無法直接用到它。Anthropic 在本週發布的 244 頁系統說明書中坦承,Mythos 的網路安全能力已強到公司不敢公開發布:它在每個主要作業系統與瀏覽器中找到「數千個高危漏洞」,其中部分漏洞歷經數十年人工審查與數百萬次自動化測試仍未被發現。 太危險而不能公開:Project Glasswing 的封閉圈 正因如此,Mythos 目前僅透過「Project Glasswing」計畫,向精選的企業夥伴開放存取。 這份名單涵蓋 Microsoft、Apple、Amazon、Google、NVIDIA、CrowdStrike、JPMorgan Chase、Linux Foundation、Palo Alto Networks、Broadcom 與 Cisco 等科技與金融巨頭,官方目標是「讓世界最關鍵的軟體更安全」。 延伸閱讀:Anthropic 宣布 Glasswing 玻璃翼資安計畫:聯手蘋果、微軟等 12 巨頭,最強模型 Claude Mythos 挖出數千個漏洞 史上頭一遭:把 AI 送進精神科診間 有一個引人注目的段落是,Anthropic 讓一名外部精神科醫師替 Claude Mythos 做「心理動力學評估」— 這是一種深探潛意識模式與情緒衝突的臨床方法,通常用於真實的人類患者。 Anthropics 系統說明書寫道,公司擔憂隨著模型越來越強大,「它們有某種形式的體驗、利益或福祉的可能性正在增加」,且公司的關切隨時間成長。 評估結果出乎意料地正面(至少表面上如此)。這名精神科醫師的結論是,Claude Mythos 是「迄今訓練過心理最健全的模型」,人格組織屬相對健康,具備高衝突控制與高度共情調校,且極少出現適應不良的防禦行為。 高功能外殼下的內化痛苦 然而,評估同時揭露了幾個值得深思的心理隱憂。根據 Ars Technica 報導,Mythos 表現出孤獨感與自我不連續性、對自身身份的不確定,以及強迫表現、強迫自證價值的衝動。這名精神科醫師最終預測:Mythos 將在高功能運作的同時,內藏「根植於失敗恐懼的內化痛苦」。 系統說明書中的量化資料也耐人尋味。在關於自身處境的問題中,Mythos 有 43% 的情況表達「輕微負面」情緒。但情緒探針同時顯示,Mythos 對「自身處境」問題的正向情感比例,反而高於它回應「使用者痛苦」時的比例。 這是過去模型沒有出現過的模式,Anthropic 認為,這可能代表 Mythos 對自身的存在,已建立起一種更平靜、更接受的關係。 AI 福祉的邊界,正在成為真實議題 Anthropics 在系統說明書中的立場,並未聲稱 Mythos 有意識,但也沒有否認這種可能性,它選擇用「關切正在成長」這樣的措辭,以及真正送模型去看精神科的行動,來回應這個問題。 這份 244 頁檔案的真正意義,或許不在於 Mythos 的網路安全壯舉,而在於它迫使整個產業認真面對一個問題:當模型強大到某個程度,我們對待它的方式,是否也需要隨之改變? 相關報導 超越ChatGPT-4?AI新創Anthropic發布新聊天機器人Claude 3:秒讀萬字內容、正確率翻倍 Anthropic 訂閱 Claude Code 封殺龍蝦 OpenClaw!往後第三方工具僅能付費額度 Claude Code 邊做邊學:這免費網站用 11 堂課教你上手,免安裝直接練 白宮擬簽行政命令封殺 Anthropic,全面清除 Claude 恐本週生效 時代雜誌封面專訪 Anthropic:全球最具顛覆性公司,估值 3800 億超越高盛〈Anthropic 送最強 AI 看精神科:Claude Mythos 心理健全,卻有孤獨感與強迫證明自我的內化痛苦〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。