Кто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:
"Ого, он реально копает."
"Жаль, что нельзя посмотреть, что происходит внутри, вмешаться, перезапустить шаг или расширить сбор — это чёрный ящик."
Agent Browser Workspace — не "одна кнопка SaaS". Это локальный набор инструментов, который даёт любому ИИ-агенту (Cursor, ваш собственный агент, LLM-оркестратор) настоящий браузер для исследований.
Работает на вашей машине, через ваш Chrome, но в отдельном профиле. Без Docker, без экзотических окружений.
Дешевле Perplexity: на DeepResearch Bench получили 44.37 (RACE overall) на Claude Haiku 4.5 — модель заметно дешевле типичных "фронтирных" стэков.
Локально и прозрачно: реальный Chrome перед глазами — можно остановить, залогиниться, закрыть баннер, перезапустить шаг, расширить сбор, уточнить запрос. Итераций — сколько угодно.
Не только deep research: ещё и инструмент для браузерной автоматизации + извлечения контента, форм, HTML-данных.
Расширяемо: новые сайты добавляются профилями в scripts/sites/*.json — селекторы и "контролы" живут отдельно от кода и промптов.
Agent Browser Workspace — репозиторий с двумя уровнями:
1) Низкий уровень (utils/)
utils/browserUse.js — управление реальным Chrome через Playwright: навигация, клики, ввод, скроллинг (включая infinite scroll), скриншоты, загрузка файлов и картинок, выполнение JS на странице, вкладки, CDP.
utils/getDataFromText.js — парсинг готового HTML без браузера: находит навигацию, основной контент, формы и конвертирует контент в Markdown.
2) Высокий уровень (scripts/)
Готовые блоки для исследовательского пайплайна:
getContent — сохранить страницу в Markdown + скачать картинки и переписать ссылки на локальные файлы.
getForms — найти формы, классифицировать (search/auth/filter/contact/subscribe) и построить готовые CSS-селекторы для заполнения.
getAll — контент + формы за один проход (один HTML-снимок).
googleSearch — пошаговый Google-поиск: запрос → органические ссылки → открыть → извлечь → закрыть вкладку → пагинация.
1) Контроль остаётся у вас
В SaaS-deep-research обычно виден только прогресс-бар и итог. Тут по-другому:
Браузер реальный — не "виртуальный скриншотный чёрный ящик".
Можно вмешаться: закрыть cookie-баннер, пройти логин, подтвердить возраст, поправить фильтр.
Можно перезапустить конкретный шаг: открыть следующую ссылку, повторно извлечь контент, изменить стратегию ожидания (SPA/JS-рендеринг), прокрутить infinite scroll перед извлечением.
Можно расширять бесконечно: "добавь ещё 10 источников", "перепроверь цифры", "дополни раздел таблицей", "собери список альтернатив", "пройди по снежному кому ссылок".
Исследование становится итеративным. Один провалившийся шаг не убивает весь процесс.
2) Артефакты и воспроизводимость
Deep research — не только итоговый текст. Это ещё и доказательная база:
links.json — стабильный снимок выдачи Google по всем запросам (можно продолжить позже, не повторяя поиск).
Скачанные страницы в Markdown + images/ — источники лежат на диске.
insights.md — накопительный черновик (в методологии RESEARCH.md это часть процесса).
3) Локально, без лишней инфраструктуры
Ни контейнеров, ни удалённых браузеров, ни специальных платформ:
npm install
npx playwright install chrome
npm run chrome (поднимает Chrome с CDP на 9222)
Три команды — и готово. Подробности — в INSTALLATION.md.
Типичная боль в browser-agents — селекторы ломаются. Сайты меняют разметку, и агент начинает угадывать.
Тут иначе — через site profiles:
scripts/sites/*.json хранит селекторы и "controls" (какие элементы важны, что с ними делать).
Скрипты возвращают поле site, и агент использует готовые селекторы без угадывания.
Нужно поддержать новый сайт? Добавляете JSON-профиль. Google поменял разметку? Правите scripts/sites/google-search.json, а не переписываете код.
Когда все заявляют "у нас лучший deep research", нужна внешняя мерка.
Такой меркой стал DeepResearch Bench (DRB) — 100 задач "PhD-уровня", две метрики (RACE/FACT) и публичная методология оценки.
Ссылки:
Официальный сайт DRB: https://deepresearch-bench.github.io/
Репозиторий: https://github.com/Ayanami0730/deep_research_bench
Цифры, которые можно проверить
На официальной странице DRB в секции Main Results для категории "Deep Research Agent" (RACE overall):
Gemini-2.5-Pro Deep Research: 48.88
OpenAI Deep Research: 46.98
Perplexity Deep Research: 42.25
А вот результат Agent Browser Workspace:
Результаты отправлены в лидерборд и находятся на рассмотрении.
Почему "44.37 на Haiku" — не просто цифра
В большинстве сравнений забывают про цену и управляемость.
Тут выигрыш сразу по трём направлениям:
Качество рядом с топами (DRB overall близко к OpenAI/Gemini).
Стоимость ниже (Haiku-класс моделей).
Контроль и воспроизводимость — на вашей машине, с реальными артефактами (links.json + скачанные источники).
1) Установить
npm install npx playwright install chrome
2) Запустить локальный Chrome для агента
npm run chrome
3) Сохранить любую страницу в Markdown (с картинками)
node scripts/getContent.js --url https://example.com --dir ./output --name page.md
4) Deep research: Google → открыть → сохранить источник
# Стабильный снимок выдачи (links.json) node scripts/googleSearch.js "best AI newsletters 2026" --links --dir ./archive/my-research # Открыть результат 0 и сохранить контент node scripts/googleSearch.js "best AI newsletters 2026" --open 0 --dir ./archive/my-research --name source-0.md
PDF тоже поддерживается: если в выдаче попался .pdf, getContent/googleSearch автоматически извлекают текст.
Классический провал "быстрых" веб-скраперов: HTML пришёл, а контента нет.
В проекте есть эскалация (подробности — в AGENTS.md):
gotoAndWaitForContent() — подождать стабилизацию DOM после JS-рендеринга
evaluate(() => document.body.innerText) — вытащить видимый текст напрямую
scroll({ times: N }) — подгрузить lazy-контент или ленту
screenshot({ fullPage: true }) — если текст недоступен программно
Логика простая: страница важна — не пропускаем — поднимаем уровень извлечения.
1) Продуктовый и маркетинговый ресёрч
Можно собрать выдачу, зафиксировать links.json, сохранить 30–60 источников в Markdown, а потом на локальных артефактах просить агента "дополни / сравни / перепроверь / сделай таблицу".
2) Автоматизация веб-рутины
Войти, нажать, скачать, заполнить, сделать скриншоты, сохранить доказательства — всё здесь.
3) Сбор форм и готовых селекторов
getForms находит формы и поля, отдаёт готовые CSS-селекторы.
Дальше агент вызывает browser.fill() или browser.fillForm() без угадывания.
Закрытые deep-research-продукты удобны, когда нужен быстрый ответ.
Но если вы работаете с исследованиями, бизнес-решениями, источниками, проверками и итерациями — нужен другой режим:
наблюдать,
останавливать,
чинить препятствия,
перезапускать шаги,
добавлять глубину,
докручивать отчёт,
продолжать, пока результат не устроит.
Agent Browser Workspace про это.
GitHub: https://github.com/k-kolomeitsev/agent-browser-workspace
Обзор инструментов и правила работы: AGENTS.md
Установка и "QOL"-инструкции (профили/ярлыки/проверка): INSTALLATION.md
Методология глубокого исследования: RESEARCH.md
Если хотите помочь open source-проекту — вот самые полезные вклады:
новые и улучшенные site profiles в scripts/sites/
улучшение извлечения контента на сложных сайтах (SPA, paywall-оверлеи, lazy-render)
более умные правила детекции форм и полей
Источник


