微軟於 11 月 24 日正式發表最新 AI 模型 Fara-7B,這款具備 70 億參數的模型被定位為「電腦使用代理」(Computer Use Agent, CUA),主打可直接在本地端運行、無需依賴雲端算力,同時兼顧高效能與資料隱私。
主打企業資料安全,支援「視覺感知」操作
Fara-7B 的設計核心在於滿足企業客戶對敏感資訊處理的隱私與合規需求。由於模型足夠精簡,可以在個人電腦上執行,不僅降低延遲,也避免資料上傳至雲端,有助於落實本地化自動化,例如用於內部帳號管理、機密文件處理等場景。
這款模型最大特色是採用「看螢幕操作」方式與網站互動——透過螢幕截圖讀取畫面排版,再預測滑鼠點擊、輸入或滾動等動作。與傳統依賴瀏覽器結構的方式不同,Fara-7B 完全基於像素級資料進行推理,因此即便是程式碼結構混亂的網站,也能正常運作。
微軟研究院產品經理 Yash Lara 表示,Fara-7B 透過本地端處理視覺輸入,實現所謂的「像素主權」,讓包括醫療、金融等高度監管產業也能安心使用。
實測效能超越 GPT-4o,小模型更高效
在 WebVoyager 測試基準中,Fara-7B 的任務完成率達 73.5%,高於 GPT-4o 的 65.1% 與 UI-TARS-1.5-7B 的 66.4%。此外,Fara-7B 完成任務平均僅需 16 步操作,明顯優於 UI-TARS-1.5-7B 的 41 步,在準確率與效率之間達成最佳平衡。
Fara-7B 同時引入「關鍵確認點」(critical checkpoints)機制,在遇到涉及用戶個資或不可逆操作(如發送信件、金錢轉移)時會自動暫停並請求確認,搭配「Magentic-UI」互動介面,提供人機協作的安全防線。
知識蒸餾與專家示範訓練,強化自主學習潛力
Fara-7B 採用「知識蒸餾」訓練方法,整合由多代理系統 Magentic-One 所產生的 14.5 萬筆成功導航範例,並壓縮至單一模型中學習。此外,底層模型基於 Qwen2.5-VL-7B,擁有最長 128,000 token 的上下文窗口,具備優異的圖文對齊能力,訓練過程以模仿人類專家操作為主。
微軟表示,未來不會盲目追求更大模型,而是致力於打造更「小而聰明、安全」的模型,並計畫引入強化學習(RL)於合成沙箱環境中進行自學訓練。
已開源上架,可自由測試商用但尚非正式產品
目前 Fara-7B 已透過 MIT 授權開源釋出,可在 Hugging Face 與微軟 Foundry 平台下載使用,允許用於商業應用。但微軟也提醒,該模型尚未達到生產環境部署標準,目前主要適合開發者用於原型測試與功能驗證。
- 延伸閱讀:Google 推 WeatherNext 2 新一代氣象預報 AI 模型,Pixel、搜尋、Gemini 搶先用
- 延伸閱讀:研究者發現讓 AI 變得更有創意的懶人提問法,不論 ChatGPT、Gemini 等任何 AI 模型皆能適用
- 延伸閱讀:Anthropic 發表Claude Haiku 4.5 小型 AI 模型:僅 1/3 成本、效能對標 Sonnet 4,程式表現甚至小贏



