DeepSeek V4 запущен на NVIDIA Blackwell, обеспечивая контекстный ИИ с 1М токенов
Iris Coleman 25 апр. 2026 00:10
DeepSeek V4, работающий на базе NVIDIA Blackwell, предлагает контекстный ИИ с 1М токенов при сниженных накладных расходах памяти и более быстрым инференсом, ориентированный на рабочие процессы с длинным контекстом.
DeepSeek представил модели ИИ четвёртого поколения — DeepSeek-V4-Pro и DeepSeek-V4-Flash, расширяя границы инференса с длинным контекстом. Эти модели, доступные сейчас через GPU-ускоренные эндпоинты NVIDIA Blackwell, рассчитаны на обработку контекстного окна до 1 миллиона токенов — значительный шаг вперёд для таких приложений, как расширенное кодирование, анализ документов и агентные рабочие процессы ИИ.
Флагманская модель DeepSeek-V4-Pro насчитывает 1,6 триллиона общих параметров и 49 миллиардов активных параметров, тогда как более ориентированная на эффективность DeepSeek-V4-Flash имеет 284 миллиарда общих параметров и 13 миллиардов активных параметров. Обе модели лицензированы по MIT и ориентированы на разные сценарии использования — Pro для расширенного рассуждения, Flash для высокоскоростных задач, таких как резюмирование и маршрутизация.
Архитектурные прорывы для ИИ с длинным контекстом
DeepSeek V4 строится на основе архитектуры компании Mixture-of-Experts (MoE), вводя инновации, направленные на преодоление трудностей инференса с длинным контекстом. Новый гибридный механизм внимания сочетает Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA), обеспечивая снижение FLOPs инференса на токен на 73% и снижение использования памяти KV-кэша на 90% по сравнению с предшественником — DeepSeek V3.2.
Почему это важно? По мере расширения контекстных окон управление эффективностью памяти и вычислений становится критически важным. Приложения ИИ с длинным контекстом, такие как многоходовое рассуждение, интеграция инструментов и масштабные рабочие процессы, требуют моделей, способных удерживать и обрабатывать большие объёмы контекстных данных без узких мест. Улучшения DeepSeek V4 решают эти проблемы, делая его сильным претендентом для предприятий, стремящихся масштабировать управляемые ИИ системы.
Интеграция с NVIDIA Blackwell
DeepSeek V4 тесно интегрирован с платформой Blackwell от NVIDIA, используя её GPU-ускоренную инфраструктуру для масштабируемой производительности. Первоначальные тесты на оборудовании NVIDIA GB200 NVL72 показывают, что DeepSeek-V4-Pro достигает более 150 токенов в секунду на пользователя, при этом ожидается, что продолжающиеся оптимизации ещё больше повысят пропускную способность.
Архитектура Blackwell разработана для моделей интеллекта с триллионом параметров, что делает её естественным выбором для вычислительных требований DeepSeek V4. Разработчики могут создавать прототипы с этими моделями через размещённые эндпоинты NVIDIA на build.nvidia.com или развёртывать их напрямую с помощью NVIDIA NIM для настройки пользовательской инфраструктуры.
Целевые сценарии использования и гибкость развёртывания
Способность DeepSeek V4 обрабатывать контексты с 1М токенов открывает новые возможности для длинноконтекстного кодирования, рабочих процессов на основе поиска и агентного ИИ. Его гибкость дополнительно усиливается инструментами развёртывания, такими как SGLang и vLLM, которые предлагают решения, адаптированные для различных требований к задержке и пропускной способности — от настроек с низкой задержкой до конфигураций с несколькими GPU для крупномасштабных операций.
Этот акцент на гибкости развёртывания подчёркивает более широкую тенденцию: по мере того как открытые модели ИИ приближаются к переднему краю интеллекта, предприятия переключают своё внимание с выбора модели на оптимизацию инфраструктуры. Конечная цель — снижение стоимости на токен при сохранении производительности, и DeepSeek V4 полностью соответствует этому приоритету.
Начало работы
Разработчики могут получить доступ к DeepSeek V4 через несколько каналов, включая Hugging Face и API-эндпоинты NVIDIA. Для предприятий и разработчиков, стремящихся интегрировать ИИ с длинным контекстом в свои рабочие процессы, DeepSeek V4 предлагает убедительное сочетание масштабируемости, эффективности и возможностей расширенного рассуждения.
Благодаря своим архитектурным достижениям и бесшовной интеграции с NVIDIA Blackwell, DeepSeek V4 устанавливает новый ориентир для ИИ с длинным контекстом. По мере роста спроса на агентные системы и расширяющиеся контекстные окна такие модели будут играть ключевую роль в формировании следующего поколения приложений ИИ.
Источник изображения: Shutterstock- deepseek v4
- nvidia blackwell
- модели ии
- инференс с длинным контекстом








