DeepSeek V4 搭载 NVIDIA Blackwell 正式发布,支持百万 Token 上下文 AI
Iris Coleman 2026年4月25日 08:10
DeepSeek V4 由 NVIDIA Blackwell 驱动,提供百万 Token 上下文 AI,降低内存开销并加快推理速度,专为长上下文工作流程而设计。
DeepSeek 发布了其第四代 AI 模型——DeepSeek-V4-Pro 与 DeepSeek-V4-Flash,进一步突破长上下文推理的边界。这两款模型现已通过 NVIDIA Blackwell GPU 加速端点提供使用,设计上可处理高达 100 万 Token 的上下文窗口,对于高级编码、文档分析及智能体 AI 工作流程等应用而言,是一大重要进展。
旗舰款 DeepSeek-V4-Pro 拥有 1.6 万亿个总参数,其中活跃参数达 490 亿;而更注重效率的 DeepSeek-V4-Flash 则拥有 2840 亿个总参数及 130 亿个活跃参数。两款模型均采用 MIT 授权,面向不同使用场景——Pro 专注于高级推理,Flash 则适用于摘要生成与路由等高速任务。
长上下文 AI 的架构突破
DeepSeek V4 在公司混合专家(MoE)架构的基础上进行构建,引入了多项旨在克服长上下文推理挑战的创新技术。全新的混合注意力机制融合了压缩稀疏注意力(CSA)与重度压缩注意力(HCA),与前代 DeepSeek V3.2 相比,每 Token 推理 FLOPs 降低了 73%,KV 缓存内存用量减少了 90%。
这为何重要?随着上下文窗口不断扩大,管理内存与计算效率变得至关重要。多轮推理、工具集成及大规模工作流程等长上下文 AI 应用,需要模型能够在不出现瓶颈的情况下保留并处理大量上下文数据。DeepSeek V4 的改进正是针对这些痛点,使其成为企业扩展 AI 驱动系统的有力竞争者。
NVIDIA Blackwell 集成
DeepSeek V4 与 NVIDIA Blackwell 平台深度集成,充分利用其 GPU 加速基础设施实现可扩展性能。在 NVIDIA GB200 NVL72 硬件上进行的初步测试显示,DeepSeek-V4-Pro 每位用户每秒可处理超过 150 个 Token,持续优化预计将进一步提升吞吐量。
Blackwell 架构专为万亿参数智能模型而设计,天然契合 DeepSeek V4 的计算需求。开发者可通过 NVIDIA 在 build.nvidia.com 上托管的端点对这些模型进行原型测试,也可直接使用 NVIDIA NIM 将其部署于自定义基础设施中。
目标应用场景与部署灵活性
DeepSeek V4 处理百万 Token 上下文的能力,为长上下文编码、基于检索的工作流程及智能体 AI 开辟了新机遇。SGLang 和 vLLM 等部署工具进一步提升了其灵活性,提供针对不同延迟与吞吐量需求量身定制的方案,从低延迟配置到大规模操作的多 GPU 配置均有覆盖。
对部署灵活性的重视凸显了一个更广泛的趋势:随着开放 AI 模型逐渐逼近智能前沿,企业正将关注点从模型选择转向基础设施优化。最终目标是在保持性能的同时降低每 Token 成本,DeepSeek V4 与这一优先方向高度契合。
快速上手
开发者可通过多种渠道访问 DeepSeek V4,包括 Hugging Face 及 NVIDIA 的 API 端点。对于希望将长上下文 AI 融入工作流程的企业与开发者而言,DeepSeek V4 提供了可扩展性、效率与高级推理能力的强大组合。
凭借架构上的进步以及与 NVIDIA Blackwell 的无缝集成,DeepSeek V4 为长上下文 AI 树立了新标杆。随着对智能体系统及大容量上下文窗口的需求不断增长,此类模型将在塑造下一代 AI 应用方面发挥关键作用。
图片来源:Shutterstock- deepseek v4
- nvidia blackwell
- AI 模型
- 长上下文推理








