微軟推出 Fara-7B 小型 AI 模型，在地端直接執行、效能超越 GPT-4o

微軟於 11 月 24 日正式發表最新 AI 模型 Fara-7B，這款具備 70 億參數的模型被定位為「電腦使用代理」（Computer Use Agent, CUA），主打可直接在本地端運行、無需依賴雲端算力，同時兼顧高效能與資料隱私。

主打企業資料安全，支援「視覺感知」操作

Fara-7B 的設計核心在於滿足企業客戶對敏感資訊處理的隱私與合規需求。由於模型足夠精簡，可以在個人電腦上執行，不僅降低延遲，也避免資料上傳至雲端，有助於落實本地化自動化，例如用於內部帳號管理、機密文件處理等場景。

這款模型最大特色是採用「看螢幕操作」方式與網站互動——透過螢幕截圖讀取畫面排版，再預測滑鼠點擊、輸入或滾動等動作。與傳統依賴瀏覽器結構的方式不同，Fara-7B 完全基於像素級資料進行推理，因此即便是程式碼結構混亂的網站，也能正常運作。

微軟研究院產品經理 Yash Lara 表示，Fara-7B 透過本地端處理視覺輸入，實現所謂的「像素主權」，讓包括醫療、金融等高度監管產業也能安心使用。

實測效能超越 GPT-4o，小模型更高效

在 WebVoyager 測試基準中，Fara-7B 的任務完成率達 73.5%，高於 GPT-4o 的 65.1% 與 UI-TARS-1.5-7B 的 66.4%。此外，Fara-7B 完成任務平均僅需 16 步操作，明顯優於 UI-TARS-1.5-7B 的 41 步，在準確率與效率之間達成最佳平衡。

Fara-7B 同時引入「關鍵確認點」（critical checkpoints）機制，在遇到涉及用戶個資或不可逆操作（如發送信件、金錢轉移）時會自動暫停並請求確認，搭配「Magentic-UI」互動介面，提供人機協作的安全防線。

知識蒸餾與專家示範訓練，強化自主學習潛力

Fara-7B 採用「知識蒸餾」訓練方法，整合由多代理系統 Magentic-One 所產生的 14.5 萬筆成功導航範例，並壓縮至單一模型中學習。此外，底層模型基於 Qwen2.5-VL-7B，擁有最長 128,000 token 的上下文窗口，具備優異的圖文對齊能力，訓練過程以模仿人類專家操作為主。

微軟表示，未來不會盲目追求更大模型，而是致力於打造更「小而聰明、安全」的模型，並計畫引入強化學習（RL）於合成沙箱環境中進行自學訓練。