DeepSeek V4 搭载 NVIDIA Blackwell 正式发布，支持百万 Token 上下文 AI

Iris Coleman 2026年4月25日 08:10

DeepSeek V4 由 NVIDIA Blackwell 驱动，提供百万 Token 上下文 AI，降低内存开销并加快推理速度，专为长上下文工作流程而设计。

DeepSeek V4 搭载 NVIDIA Blackwell 正式发布，支持百万 Token 上下文 AI

DeepSeek 发布了其第四代 AI 模型——DeepSeek-V4-Pro 与 DeepSeek-V4-Flash，进一步突破长上下文推理的边界。这两款模型现已通过 NVIDIA Blackwell GPU 加速端点提供使用，设计上可处理高达 100 万 Token 的上下文窗口，对于高级编码、文档分析及智能体 AI 工作流程等应用而言，是一大重要进展。

旗舰款 DeepSeek-V4-Pro 拥有 1.6 万亿个总参数，其中活跃参数达 490 亿；而更注重效率的 DeepSeek-V4-Flash 则拥有 2840 亿个总参数及 130 亿个活跃参数。两款模型均采用 MIT 授权，面向不同使用场景——Pro 专注于高级推理，Flash 则适用于摘要生成与路由等高速任务。

长上下文 AI 的架构突破

DeepSeek V4 在公司混合专家（MoE）架构的基础上进行构建，引入了多项旨在克服长上下文推理挑战的创新技术。全新的混合注意力机制融合了压缩稀疏注意力（CSA）与重度压缩注意力（HCA），与前代 DeepSeek V3.2 相比，每 Token 推理 FLOPs 降低了 73%，KV 缓存内存用量减少了 90%。

这为何重要？随着上下文窗口不断扩大，管理内存与计算效率变得至关重要。多轮推理、工具集成及大规模工作流程等长上下文 AI 应用，需要模型能够在不出现瓶颈的情况下保留并处理大量上下文数据。DeepSeek V4 的改进正是针对这些痛点，使其成为企业扩展 AI 驱动系统的有力竞争者。

NVIDIA Blackwell 集成

DeepSeek V4 与 NVIDIA Blackwell 平台深度集成，充分利用其 GPU 加速基础设施实现可扩展性能。在 NVIDIA GB200 NVL72 硬件上进行的初步测试显示，DeepSeek-V4-Pro 每位用户每秒可处理超过 150 个 Token，持续优化预计将进一步提升吞吐量。

Blackwell 架构专为万亿参数智能模型而设计，天然契合 DeepSeek V4 的计算需求。开发者可通过 NVIDIA 在 build.nvidia.com 上托管的端点对这些模型进行原型测试，也可直接使用 NVIDIA NIM 将其部署于自定义基础设施中。