DeepSeek-V4 Preview · 2026.04.24

迈入百万上下文普惠时代

DeepSeek-V4 预览版今日开源。两个尺寸、1M token 标配、FLOPs 与 KV Cache 同时压缩至一个数量级。

这不是冲破天花板的世界最佳发布。就在一周前 Opus 4.7 上线、昨天 GPT-5.5 发布，新 SOTA 已在别处。
V4 做的另一件事是，把 1M 超长上下文的 agent 模型，第一次交到每个开发者手里。

体验 chat.deepseek.com HuggingFace 下载

1,000,000tokens

上下文窗口

官方全线标配 · 含 API / App / Chat

27%

单 token 推理 FLOPs

相比 V3.2 · 9.8× lower

10%

KV Cache 占用

相比 V3.2 · 13.7× smaller

Two Sizes · One Philosophy

一个做顶级闭源的对手，
一个做高性价比的普及者。

论文对标 GPT-5.4 与 Claude Opus 4.6。V4-Flash 用更小激活参数反超 V3.2-Base，成为真正意义上的价格屠夫。

FLAGSHIP

V4-Pro

公司内部员工的默认 Agentic Coding 模型。性能接近 Opus 4.6，推理优于 Sonnet 4.5。

Total Params

1.6 T
Activated

49 B
Layers

61
Experts

384

论文对标 GPT-5.4 xHigh · Claude Opus 4.6 Max · Gemini 3.1 Pro High
发布时新 SOTA 已是 Opus 4.7（04-16）与 GPT-5.5（04-23）

EFFICIENT

V4-Flash

用 V3.2-Base 五分之一的激活参数，跑出反超 V3.2-Base 的综合得分。

Total Params

284 B
Activated

13 B
Layers

43
Experts

256

定位速度与成本优先的生产环境 · API 默认主力

Architectural Innovations

四刀砍在底层机制上

V4 没有发明新的损失函数、没有改 MoE 路由。所有创新都集中在「信号怎么流动」和「梯度怎么更新」。

01 · Residual

mHC

Manifold-Constrained Hyper-Connections

给残差连接加了一道「只准收缩不准放大」的数学护栏。把残差映射约束到双随机矩阵流形上，谱范数恒 ≤ 1，深层堆叠不再炸。

02 · Attention

CSA + HCA

Compressed Sparse + Heavily Compressed Attention

粗细两把筛子在 Transformer 块之间交替。CSA 用 Lightning Indexer 挑 top-k 做稀疏；HCA 激进压缩、dense 扫全局。1M 上下文 KV cache 仅为 GQA8 baseline 的约 2%。

03 · Optimizer

Muon

Orthogonalized Momentum

替代大部分模块的 AdamW。用 Newton-Schulz 迭代把动量矩阵投影成正交矩阵，每个方向更新步长相等。不偏科、更稳、收敛更快，且可以直接复用 AdamW 的超参。

04 · Precision

FP4 QAT

Quantization-Aware Training

量化感知训练让训练和推理比特级一致。KV 存储用混合精度：RoPE 维度 BF16、其余 FP8、Lightning Indexer 直接 FP4。省显存的同时不掉点。

Efficiency Breakthrough

在 1M 上下文下，算一次的代价
只有 V3.2 的四分之一

同样的 1M token 请求，V4 只需 V3.2 的 27% 计算、10% 内存。

秘密不在于更大的显卡或更多的参数。CSA+HCA 混合注意力让 query 在不同层之间看「细节」或看「全局」，把多余的注意力当场剪掉。

9.8×

lower FLOPs
单 token 推理算力
13.7×

smaller KV Cache
长上下文显存占用

Benchmarks · 对标最新 SOTA

在做题解题赛道，
V4-Pro 就是那个新的上限

对标升级：Opus 4.7（2026-04-16）与 GPT-5.5（2026-04-23）。数据取自 DS-V4 技术报告、Opus 4.7 System Card 与 GPT-5.5 官方博客。「—」为原厂未披露或口径不一致。

Codeforces

Competitive programming · Elo

3206

—

3052

LiveCodeBench

Pass@1 · 2025 splits

93.5

—

91.7

Putnam-2025

形式化数学 · Lean 证明 · /120

120 / 120

—

Apex Shortlist

数学奥赛 shortlist

90.2

—

89.1

SWE-Bench Verified 工程类

真实 GitHub issue · pass rate

80.6%

87.6%

—

80.6%

Terminal-Bench 2.0 Agent

终端长 horizon 任务

67.9%

69.4%

82.7%

68.5%

Chinese Writing

vs Gemini 3.1 Pro · 写作质量胜率

77.5%

—

22.5%

做题 · 解题 · 形式化证明 · 竞赛编程 —— 这些有明确答案的赛道，V4-Pro 是新上限。
Agent / 工程代码 / 长 horizon 任务 —— V4-Pro 追上开源阵营前列，但仍落后 Opus 4.7 与 GPT-5.5 半个版本代差。

Honesty · 论文里的自我审视

擅长做题，品味还差火候。
论文自己先把局限写清楚。

V4 是第一个在数学/编程单科目上反超闭源旗舰的开源模型，但在需要品味的任务上仍输 Opus。这份诚实写在论文里，不是藏着。

品味差

创意写作高难度场景，输 Opus 4.5。

日常中文写作 V4-Pro 对 Gemini 3.1 Pro 的写作质量胜率是 77.5%，几乎碾压。但一旦换成高难度多约束的创意场景对标 Claude Opus 4.5，胜率掉到 45.9%，翻车。更别提 Opus 4.6 / 4.7。

来源：技术报告 Section 5.4 Chinese Writing

Agent 短板

长 horizon 工具调用仍落后闭源半档。

Terminal-Bench 2.0 落后 GPT-5.5 整整 14.8 分。HLE w/ tools 甚至输给 K2.6-Thinking。论文原话：「所有开源模型仍落后闭源对手」——不演、不粉饰。

来源：技术报告 Section 5.3 Agent Benchmark

知识广度

HLE、GPQA、MMLU-Pro 仍被 Gemini 压制。

知识类四冠王仍是 Gemini 3.1 Pro。V4-Pro-Max 的 HLE 是 37.7，比 Gemini 低 6.7 分。论文承认：通用世界知识上，开源「缩短到接近但未追平」。

来源：技术报告 Section 5.3 Knowledge Benchmark

本分姿态

把竞赛选手基因写在论文里。

DeepSeek 招的员工大多数是竞赛获奖选手。模型在做题解题上的强势、在品味任务上的弱势，本质上是一种基因的延伸——这一点，论文里写得坦白，发布文里也没藏着。

花生视角 · 观点 2 + 4

Pricing · 官方人民币价格

普惠叙事的主力是 Flash ，
Pro 在等国产芯片放量。

所有价格为 DeepSeek 官方人民币报价，单位「元 / 百万 token」。缓存命中指已用过的上下文前缀再次使用。

DEEPSEEK-V4-PRO · 元 / M tokens

V4-Pro：对标顶级闭源的
开源最佳。

输入 · 缓存命中

1元 / M

输入 · 缓存未命中

12元 / M

输出

24元 / M

DEEPSEEK-V4-FLASH · 元 / M tokens

V4-Flash：真正的价格屠夫，
把 1M 上下文变成默认档位。

输入 · 缓存命中

0.2元 / M

输入 · 缓存未命中

1元 / M

输出

2元 / M

官方原话

「受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。」

— DeepSeek 官方价格说明，2026-04-24

不画大饼，先承认约束、给出时间表。这是观点 4「最诚实、本分的模型」的一个切面。

V4-Pro 相对顶级闭源（输出价）

V4-Pro 对标 Opus 4.6 与 GPT-5.4 的能力，Pro 的定价是「对标顶级闭源的开源最佳」，便宜是结果，不是主打。

vs Claude Opus 4.7（$25 / M 输出）

约 1/22.5

vs GPT-5.5（$30 / M 输出）

约 1/9

vs Gemini 3.1 Pro（$12 / M 输出）

约 1/3.6

V4-Flash 的价格屠杀

Flash 的 0.2 元缓存命中价，把 1M 长上下文 agent 第一次做进大多数开发者的日常账单里。

vs Claude Haiku 4.5（$1 / $5 per M）

约 1/18（输出）

vs GPT-5-mini（$0.25 / $2 per M）

约 1/7（输出）

vs DeepSeek-V3.2

同档位 · 4× 长度

Ecosystem · Agent 适配

把开源模型，直接塞进
开发者已经在用的 agent 里。

官方明确提到，V4 已针对主流 Agent 产品做了适配和优化。不是再造一个 IDE，是在别人已经铺好的路上，换一个引擎。

Claude Code

Anthropic 官方 CLI，通过 Anthropic 接口兼容直接切换 model_name 即可替换。

OpenClaw

开源 agent 框架，V4-Pro 是当前唯一可做 agentic coding 默认模型的开源选项。

OpenCode

开源编码 agent，V4-Flash 的 1M 上下文和低价，适合长文件 refactor 场景。

CodeBuddy

国产编码助手，V4 是首个原生接入的国产开源模型，绑定昇腾算力链路。

API 同时兼容 OpenAI ChatCompletions 接口与 Anthropic 接口。多数 agent 项目只需改一行 model_name。

迈入百万上下文普惠时代

一个做顶级闭源的对手，一个做高性价比的普及者。

四刀砍在底层机制上

在 1M 上下文下，算一次的代价只有 V3.2 的四分之一

同样的 1M token 请求，V4 只需 V3.2 的 27% 计算、10% 内存。

在做题解题赛道，V4-Pro 就是那个新的上限

擅长做题，品味还差火候。论文自己先把局限写清楚。

普惠叙事的主力是 Flash ，Pro 在等国产芯片放量。

V4-Pro：对标顶级闭源的开源最佳。

V4-Flash：真正的价格屠夫，把 1M 上下文变成默认档位。