В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeeВ последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSee

Из коробки не работает: запускаем свежие большие LLM

2026/03/04 12:10
5м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным.

Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь.

В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь.

В качестве вводных считаем, что дрова установлены корректно. Лучше это проверить заранее, в т. ч. nvlsm и fabric-manager, чтобы потом не отлавливать ошибки запуска моделей одновременно с проблемами настройки железа.

DeepSeek-V3.2

Если R1 совсем прошлогодняя (январь-май 2025), то V3.2 - относительно свежа, декабрь 2025. (Из очень странных проблем - при запуске исходной R1 постоянно, причём на разных safetensors, вылетала ошибка валидации весов, которую не удалось забороть перекачиванием и сверкой хэшей... Зато DeepSeek-R1-0528 полетела с первого раза. Как и V3.2. После небольшого исправления. Берём образ (в т.ч. свежий vllm/vllm-openai:v0.16.0), получаем ошибку Error 803: system has unsupported display driver / cuda driver combination.

Причина бага - несовместимость свежих релизов vllm с последними драйверами в системе, которая лечится переменной

environment: - LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu

От железа не зависит, на B200 и H200 проявляется. От версии CUDA внутри самого образа vllm тоже не зависит.

Характерное изменение в DeepSeek V3.2 - отсутствие шаблона чата. К модели прилагаются примеры кода, конечно - но для работы через API в openai-совместимом режиме проще подставить рекомендованный параметр запуска --tokenizer-mode deepseek_v32. v4 пока не вышел, хотя, по слухам, обещали ещё вчера... Ждём.

Z.ai GLM

По инструкции, для вышедшей в декабре 2025 версии 4.7 (любой, полновесной и -flash) добиваем образ трансформерами из сырцов.

FROM vllm/vllm-openai:v0.15.0-cu130 RUN apt update && apt install git -y RUN pip install -U git+https://github.com/huggingface/transformers.git

В нашем случае исходный образ был 0.15. up... оп! - опять Error 803. Но лечится немного по-другому, чем в прошлый раз:

volumes: - /dev/null:/etc/ld.so.conf.d/00-cuda-compat.conf

Для GLM-5 (февраль 2026) разработчики vllm выпустили отдельный образ, который для последних дров тоже надо патчить при запуске. Уже через env переменную LD_LIBRARY_PATH (см. про DeepSeek и vllm 0.16).

Moonshot AI Kimi-K2.5

Опубликована аккурат 1 января 2026. Тяжёлая, больше триллиона параметров (в INT4). В доках от VLLM написано, что работает с версии 0.15 - на самом деле, нормально поехало только с 0.16 (которая очень кстати подъехала 26 февраля). На предыдущем релизе и nightly сборках так и не получилось забороть все ошибки. vllm периодически крашился в процессе работы. Возможно, дело в параметрах тонкой настройки, но это выходит за рамки запуска"out-of-the-box". Из дополнительных параметров обязательно требуется флаг --trust-remote-code для кода, который поставляется с моделью. vllm версии 0.16 требует того же патча через LD_LIBRARY_PATH .

Kimi доставил(а). Настойчиво идентифицирует себя как Claude. На простейший запрос "What is your cutoff date?" последовательно можно получить примерно такие результаты:

На Реддите даже тредик есть по этому поводу.

Qwen3.5

Две недели от роду. Уменьшенной версии и того меньше - публикуют с интервалом в неделю. Документация по vllm говорит, что для запуска Квина нужны nightly сборки и обещают зафиксировать всё необходимое в коде предстоящей версии vllm 0.17, но, по факту, работает только в образе vllm/vllm-openai:qwen3_5 "от производителя". Во всяком случае, быстро собрать всё нужное из nightly и дополнительных источников не вышло. Но у "фирменного" образа те же проблемы при запуске на свежих дровах, поэтому рецепт стандартный для vllm версий от 0.16 - через env. Модель забавная. Навскидку пытается сказать, что знает всё до 2026 года, но потом съезжает в 2024. Ризонинг сырого, не ограниченного промптами Квина довольно странный. Слишком много думает и делает вид, что перепроверяет себя. В чате без установочных промптов довольно специфична.

TL;DR

Если вкратце, то потраченного времени удалось избежать бы, не будь вот этого бага vllm со свежими драйверами Nvidia. В треде есть ссылка на чуть более ранние упоминания, но это всё ещё не полечено в nightly сборках vllm.

Патч для запуска vllm 0.15 на 590.48.01:

volumes: - /dev/null:/etc/ld.so.conf.d/00-cuda-compat.conf

Для запуска vllm 0.16+:

environment: - LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu

Под специфичными параметрами подразумеваем те, без которых не полетит:

Модель

Образ vllm для запуска

Специфичные параметры

DeepSeek-V3.2

vllm/vllm-openai:v0.16.0-cu130

--tokenizer-mode deepseek_v32

GLM-4.7

vllm/vllm-openai:v0.15.0-cu130 + transformers nightly

n/a

GLM-5

vllm/vllm-openai:glm5

n/a

Kimi-K2.5

vllm/vllm-openai:v0.16.0-cu130

--trust-remote-code

Qwen3.5

vllm/vllm-openai:qwen3_5-cu130

n/a

Всё перечисленное в равной степени верно и подходит для уменьшенных версий каждой из модели (если доступны), так что экспериментировать можно на любом железе. По качественным показателям свежие модельки похожего размера довольно близки, каких-то существенных отрывов нет. Дальше интересно попробовать на реальных задачах (чаты, кодинг, агрегация и генерация документов) оценить, например, целесообразность запуска 4-8ми инстансов GLM-4.7-flash вместо одной полноразмерной GLM-4.7, или Qwen3.5 в варианте 35B вместо 397B. Если у кого-то есть практический опыт - делитесь в комментариях.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Цены на криптовалюту