Microsoft 24 листопада офіційно представила нову ШІ-модель Fara-7B. Ця модель із 7 мільярдами параметрів позиціонується як "агент використання комп'ютера" (Computer Use Agent, CUA) і відзначається можливістю працювати безпосередньо на локальному пристрої без залежності від хмарних обчислень, одночасно забезпечуючи високу продуктивність і конфіденційність даних.
Орієнтація на безпеку корпоративних даних із підтримкою операцій "візуального сприйняття"
Основа дизайну Fara-7B полягає в задоволенні потреб корпоративних клієнтів щодо конфіденційності та відповідності вимогам при обробці чутливої інформації. Завдяки компактності моделі, вона може працювати на персональному комп'ютері, що не лише зменшує затримку, але й запобігає завантаженню даних у хмару, сприяючи локальній автоматизації, наприклад, для управління внутрішніми обліковими записами та обробки конфіденційних документів.
Головна особливість цієї моделі — використання методу "перегляду екрану" для взаємодії з веб-сайтами: вона зчитує макет екрана через знімки екрана, а потім прогнозує дії, такі як клацання мишею, введення тексту чи прокручування. На відміну від традиційних методів, що покладаються на структуру браузера, Fara-7B повністю базується на даних на рівні пікселів для виведення висновків, тому вона може нормально працювати навіть із веб-сайтами, що мають заплутану структуру коду.
Менеджер продукту дослідницького центру Microsoft Яш Лара зазначає, що Fara-7B обробляє візуальні вхідні дані локально, реалізуючи так званий "піксельний суверенітет", що дозволяє використовувати її навіть у високорегульованих галузях, таких як охорона здоров'я та фінанси.
Практичні випробування показують перевагу над GPT-4o, менша модель є ефективнішою
У тестовому еталоні WebVoyager, Fara-7B досягла рівня виконання завдань 73,5%, що перевищує 65,1% у GPT-4o та 66,4% у UI-TARS-1.5-7B. Крім того, Fara-7B в середньому потребує лише 16 кроків для виконання завдання, що значно краще, ніж 41 крок у UI-TARS-1.5-7B, досягаючи оптимального балансу між точністю та ефективністю.
Fara-7B також впроваджує механізм "критичних контрольних точок" (critical checkpoints), який автоматично призупиняється та запитує підтвердження при зіткненні з діями, що стосуються особистих даних користувача або незворотних операцій (наприклад, надсилання листів, переказ грошей), у поєднанні з інтерфейсом взаємодії "Magentic-UI", що забезпечує безпечну лінію людсько-машинної співпраці.
Дистиляція знань і навчання на прикладах експертів, посилення потенціалу самостійного навчання
Fara-7B використовує метод навчання "дистиляції знань", інтегруючи 145 000 успішних прикладів навігації, створених мультиагентною системою Magentic-One, і стискаючи їх для навчання в єдиній моделі. Крім того, базова модель заснована на Qwen2.5-VL-7B, має контекстне вікно до 128 000 токенів і відмінну здатність узгоджувати зображення та текст, а процес навчання зосереджений на імітації дій людей-експертів.
Microsoft заявляє, що в майбутньому не буде сліпо прагнути до більших моделей, а натомість зосередиться на створенні "менших, розумніших і безпечніших" моделей, і планує впровадити навчання з підкріпленням (RL) для самонавчання в синтетичних середовищах пісочниці.
Вже з відкритим кодом і доступна для використання, можна вільно тестувати для комерційного використання, але ще не є офіційним продуктом
На даний момент Fara-7B випущена з відкритим кодом за ліцензією MIT і доступна для завантаження на платформах Hugging Face і Microsoft Foundry, дозволяючи комерційне використання. Однак Microsoft також попереджає, що модель ще не відповідає стандартам розгортання в виробничому середовищі і наразі найкраще підходить для розробників для тестування прототипів і перевірки функціональності.
- Додаткове читання: Google випускає WeatherNext 2, нове покоління ШІ-моделі прогнозування погоди, яка вже доступна на Pixel, у пошуку та Gemini
- Додаткове читання: Дослідники виявили простий метод запитань, який робить ШІ креативнішим, працює з будь-якою ШІ-моделлю, включаючи ChatGPT і Gemini
- Додаткове читання: Anthropic представляє малу ШІ-модель Claude Haiku 4.5: лише 1/3 вартості, продуктивність на рівні Sonnet 4, а в програмуванні навіть трохи краща


