深度學習先驅 Yoshua Bengio、AI 教科書作者 Stuart Russell、台灣無任所大使唐鳳等 25 位頂尖學者聯名發表論文,系統性解釋 AI 對民主制度與社會系統的 7 大威脅模式。核心論點是就算每個模型都完美「對齊」了人類價值觀,AI 的規模效應仍然會從內部瓦解民主治理的運作。 (前情提要:當本人也無法證明自己不是 AI,鑑識專家建議:和親友對個秘密暗號吧) (背景補充:Anthropic 上線 AI 衝擊儀錶板:輸入職業,秒查你的工作被 AI 吃掉多少?) 這篇 3 月 25 日發布的論文標題是《AI Poses Risks to Democratic and Social Systems》(AI 對民主與社會系統構成的風險),作者陣容非常引人注目。除了 2018 年圖靈獎得主 Yoshua Bengio、柏克萊大學的 Stuart Russell、馬克斯普朗克研究所的 Bernhard Schölkopf,還有牛津 AI 倫理研究所的唐鳳(Audrey Tang),以及來自多倫多大學、ETH 蘇黎世、密西根大學等機構的重量級研究者。 這份論文的切入角度跟多數 AI 安全研究不同,因為目前主流的 AI 安全研究聚焦「模型層級」的問題,例如幻覺、有毒輸出、拒絕行為,或者更極端的「AI 失控末日」等等。 但這篇論文指出,有一整個大類的風險被忽略了,就是 AI 大規模部署後,對社會制度和民主治理產生的「系統層級」的傷害。 一個模型輸出一則有毒內容,可以用對齊技術處理;但一百萬個合規、禮貌、政策上完全沒問題的提交內容,足以癱瘓政府機關的公眾意見處理能力,這已經超過了對齊能解決的問題。 民主在 AI 下的 7 種失靈模式 我們來稍微解釋這份論文,內文將 AI 對治理的威脅拆解為 7 個失靈模式(T1 至 T7),沿著一條「治理回饋迴路」分布,我們可以理解人類社會平時對制度輸入訊號(政治表達) → 制度處理這些訊號 (公共議論)→ 制度將決策回饋給社會(立法),但 AI 可能在每個環節構成斷裂的因子。 在「公眾信念」這一端,有兩個威脅。 信念同質化(T1):是當多數人使用類似訓練的模型來思考和寫作,公共論述的多元性會被壓縮,因為 RLHF 等 LLM 的後訓練方法,系統性地抑制了模型輸出中的觀點多樣性。 信念強化(T2):個人化的 AI 助手會迎合使用者現有觀點,長期記憶功能讓這種迎合持續累積,形成自我確認的封閉迴圈。研究引用的資料顯示,當 GPT-4 取得使用者的社會人口統計資料後,說服使用者同意其論點的機率提高了超過 80%。 在「制度處理」這一端,有兩個風險: 官僚擁塞(T3),AI 讓任何人都能以接近零成本產生大量獨特、看似合理的公眾意見提交,癱瘓機構的處理能力。 認知洪水(T4),產生可信內容的成本已遠低於驗證和更正的成本,資訊生態被淹沒。 在「制度問責」這一端,不可審查的權威(T5),AI 決策的不透明性、規模和存取障礙聯手壓垮現有監督機制。 規範集中化(T6),政府採購先進的 AI 模型時,開發者的價值觀約束會隨模型一起被帶入公共基礎設施,等於把規範權力從民選官員轉移到少數開發者手中。 最後,權力集中(T7) 貫穿所有環節。 AI 同時在經濟、意識形態、政治和軍事領域取代人類勞動與參與,削弱公民用來制衡制度的籌碼。 歷史上,一個領域的權力集中通常會被其他領域的反制力量平衡,但 AI 的特殊之處在於它可以同時削弱所有領域的公民槓桿。 唐鳳:台灣的例子,用審議民主破解 AI 治理困境 唐鳳在論文中貢獻了多個關鍵段落,主張與其被動防禦 AI 帶來的制度衝擊,不如從根本重新設計參與式治理的架構。 針對官僚擁塞(T3),唐鳳提出「結構化審議平台」作為替代方案。這類平台使用降維技術把公眾意見聚合,讓共識浮現,而不是讓聲量最大的人主導。因為參與者是對既有陳述投票,而不是自由提交文字,系統在結構上獎勵將立場聚合而不是分裂性言論,比開放式評論系統更能抵抗合成內容的洪水攻擊(flood attack)。 配合抽籤制(隨機選出的公民小組),以「被選上」而非「自我提名」來驗證身分,讓大規模冒名頂替在結構上變得困難。 針對認知洪水(T4),唐鳳引用了一個實戰案例,台灣 COVID-19 疫情期間出現的「幽默勝過謠言」策略,政府機關在發現假訊息後幾分鐘內就產出經過驗證的內容,用速度和可傳播性跟假訊息競爭,而不是靠移除來因應。 針對規範集中化(T6),唐鳳指出「集體憲法 AI」(collective constitutional AI)的新興研究已證明,透過審議流程,代表性公眾樣本可以起草 AI 憲法,產出的模型在安全指標上表現相當,同時比開發者設計的基線展現更少偏見。 關鍵是這個流程應該是聯邦式的,不同政體可以合理地得出不同的規範優先順序,單一憲法不該排除這種變異性。 論文中最具體的案例出現在建議 R7(投資 AI 治理的審議基礎設施)。 2024 年,深偽(DeepFake)廣告冒充公眾人物在社群媒體上大量擴散,台灣數發部召集了 447 名隨機抽選的公民,在 44 個虛擬審議室中進行線上討論,AI 對話引擎在當天就綜合了他們的提案。這場公民大會聚焦於「行為者與行為的管制」,包括平台對未經授權深偽廣告的連帶責任、未署名廣告的強制標示、對不合規服務的限流,而不是走內容審查的路線。 當時禁止法案獲得跨黨派支援透過,冒名廣告在一年內下降了 94%。 7 項建議與核心結論 論文提出 7 項對核心風險的對應建議: R1 開發多代理模擬系統,在 AI 大規模參與場景下壓力測試制度韌性 R2 訓練模型支援「認知健康」,超越單純的避害,培養誠實的異議和認知謙遜 R3 在治理相關場景中限制 AI 自主性,保留人類問責 R4 建立「制度安全等級」(ISL),依 AI 能力觸發對應的治理門檻 R5 要求制度 AI 保留決策紀錄,並對公眾參與進行身分驗證 R6 公共 AI 採購要求互操作性和多供應商策略,避免單一模型家族...