DeepSeek-V4 Preview · 2026.04.24

迈入百万上下文普惠时代

DeepSeek-V4 预览版今日开源。两个尺寸、1M token 标配、FLOPs 与 KV Cache 同时压缩至一个数量级。

这不是冲破天花板的世界最佳发布。就在一周前 Opus 4.7 上线、昨天 GPT-5.5 发布,新 SOTA 已在别处。
V4 做的另一件事是,把 1M 超长上下文的 agent 模型,第一次交到每个开发者手里。

1,000,000tokens
上下文窗口
官方全线标配 · 含 API / App / Chat
27%
单 token 推理 FLOPs
相比 V3.2 · 9.8× lower
10%
KV Cache 占用
相比 V3.2 · 13.7× smaller
Two Sizes · One Philosophy

一个做顶级闭源的对手
一个做高性价比的普及者

论文对标 GPT-5.4 与 Claude Opus 4.6。V4-Flash 用更小激活参数反超 V3.2-Base,成为真正意义上的价格屠夫。

FLAGSHIP
V4-Pro

公司内部员工的默认 Agentic Coding 模型。性能接近 Opus 4.6,推理优于 Sonnet 4.5。

  • Total Params
    1.6 T
  • Activated
    49 B
  • Layers
    61
  • Experts
    384

论文对标 GPT-5.4 xHigh · Claude Opus 4.6 Max · Gemini 3.1 Pro High
发布时新 SOTA 已是 Opus 4.7(04-16)与 GPT-5.5(04-23)

EFFICIENT
V4-Flash

用 V3.2-Base 五分之一的激活参数,跑出反超 V3.2-Base 的综合得分。

  • Total Params
    284 B
  • Activated
    13 B
  • Layers
    43
  • Experts
    256

定位 速度与成本优先的生产环境 · API 默认主力

Architectural Innovations

四刀砍在底层机制

V4 没有发明新的损失函数、没有改 MoE 路由。所有创新都集中在「信号怎么流动」和「梯度怎么更新」。

01 · Residual
mHC
Manifold-Constrained Hyper-Connections

给残差连接加了一道「只准收缩不准放大」的数学护栏。把残差映射约束到双随机矩阵流形上,谱范数恒 ≤ 1,深层堆叠不再炸。

02 · Attention
CSA + HCA
Compressed Sparse + Heavily Compressed Attention

粗细两把筛子在 Transformer 块之间交替。CSA 用 Lightning Indexer 挑 top-k 做稀疏;HCA 激进压缩、dense 扫全局。1M 上下文 KV cache 仅为 GQA8 baseline 的约 2%

03 · Optimizer
Muon
Orthogonalized Momentum

替代大部分模块的 AdamW。用 Newton-Schulz 迭代把动量矩阵投影成正交矩阵,每个方向更新步长相等。不偏科、更稳、收敛更快,且可以直接复用 AdamW 的超参。

04 · Precision
FP4 QAT
Quantization-Aware Training

量化感知训练让训练和推理比特级一致。KV 存储用混合精度:RoPE 维度 BF16、其余 FP8、Lightning Indexer 直接 FP4。省显存的同时不掉点。

Efficiency Breakthrough

在 1M 上下文下,算一次的代价
只有 V3.2 的四分之一

Per-token inference cost V3.2 baseline vs V4 architecture V3.2 V4-Pro 9.8× lower 4K 64K 256K 1M CONTEXT LENGTH → FLOPs · per token

同样的 1M token 请求,V4 只需 V3.2 的 27% 计算、10% 内存。

秘密不在于更大的显卡或更多的参数。CSA+HCA 混合注意力让 query 在不同层之间看「细节」或看「全局」,把多余的注意力当场剪掉。

  • 9.8×
    lower FLOPs
    单 token 推理算力
  • 13.7×
    smaller KV Cache
    长上下文显存占用
Benchmarks · 对标最新 SOTA

在做题解题赛道,
V4-Pro 就是那个新的上限

对标升级:Opus 4.7(2026-04-16)与 GPT-5.5(2026-04-23)。数据取自 DS-V4 技术报告、Opus 4.7 System Card 与 GPT-5.5 官方博客。「—」为原厂未披露或口径不一致。

Benchmark
V4-Pro
Opus 4.7
GPT-5.5
Gemini 3.1 Pro
Codeforces
Competitive programming · Elo
3206
3052
LiveCodeBench
Pass@1 · 2025 splits
93.5
91.7
Putnam-2025
形式化数学 · Lean 证明 · /120
120 / 120
Apex Shortlist
数学奥赛 shortlist
90.2
89.1
SWE-Bench Verified 工程类
真实 GitHub issue · pass rate
80.6%
87.6%
80.6%
Terminal-Bench 2.0 Agent
终端长 horizon 任务
67.9%
69.4%
82.7%
68.5%
Chinese Writing
vs Gemini 3.1 Pro · 写作质量胜率
77.5%
22.5%

做题 · 解题 · 形式化证明 · 竞赛编程 —— 这些有明确答案的赛道,V4-Pro 是新上限。
Agent / 工程代码 / 长 horizon 任务 —— V4-Pro 追上开源阵营前列,但仍落后 Opus 4.7 与 GPT-5.5 半个版本代差。

Honesty · 论文里的自我审视

擅长做题,品味还差火候
论文自己先把局限写清楚。

V4 是第一个在数学/编程单科目上反超闭源旗舰的开源模型,但在需要品味的任务上仍输 Opus。这份诚实写在论文里,不是藏着。

品味差
创意写作高难度场景,输 Opus 4.5。

日常中文写作 V4-Pro 对 Gemini 3.1 Pro 的写作质量胜率是 77.5%,几乎碾压。但一旦换成高难度多约束的创意场景对标 Claude Opus 4.5,胜率掉到 45.9%,翻车。更别提 Opus 4.6 / 4.7。

来源:技术报告 Section 5.4 Chinese Writing
Agent 短板
长 horizon 工具调用仍落后闭源半档。

Terminal-Bench 2.0 落后 GPT-5.5 整整 14.8 分。HLE w/ tools 甚至输给 K2.6-Thinking。论文原话:「所有开源模型仍落后闭源对手」——不演、不粉饰。

来源:技术报告 Section 5.3 Agent Benchmark
知识广度
HLE、GPQA、MMLU-Pro 仍被 Gemini 压制。

知识类四冠王仍是 Gemini 3.1 Pro。V4-Pro-Max 的 HLE 是 37.7,比 Gemini 低 6.7 分。论文承认:通用世界知识上,开源「缩短到接近但未追平」。

来源:技术报告 Section 5.3 Knowledge Benchmark
本分姿态
把竞赛选手基因写在论文里。

DeepSeek 招的员工大多数是竞赛获奖选手。模型在做题解题上的强势、在品味任务上的弱势,本质上是一种基因的延伸——这一点,论文里写得坦白,发布文里也没藏着。

花生视角 · 观点 2 + 4
Pricing · 官方人民币价格

普惠叙事的主力是 Flash
Pro 在等国产芯片放量。

所有价格为 DeepSeek 官方人民币报价,单位「元 / 百万 token」。缓存命中指已用过的上下文前缀再次使用。

DEEPSEEK-V4-PRO · 元 / M tokens

V4-Pro:对标顶级闭源的
开源最佳。

输入 · 缓存命中
1元 / M
输入 · 缓存未命中
12元 / M
输出
24元 / M
DEEPSEEK-V4-FLASH · 元 / M tokens

V4-Flash:真正的价格屠夫,
把 1M 上下文变成默认档位。

输入 · 缓存命中
0.2元 / M
输入 · 缓存未命中
1元 / M
输出
2元 / M
官方原话
「受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。」
— DeepSeek 官方价格说明,2026-04-24

不画大饼,先承认约束、给出时间表。这是观点 4「最诚实、本分的模型」的一个切面。

V4-Pro 相对顶级闭源(输出价)

V4-Pro 对标 Opus 4.6 与 GPT-5.4 的能力,Pro 的定价是「对标顶级闭源的开源最佳」,便宜是结果,不是主打。

vs Claude Opus 4.7($25 / M 输出)
约 1/22.5
vs GPT-5.5($30 / M 输出)
约 1/9
vs Gemini 3.1 Pro($12 / M 输出)
约 1/3.6

V4-Flash 的价格屠杀

Flash 的 0.2 元缓存命中价,把 1M 长上下文 agent 第一次做进大多数开发者的日常账单里。

vs Claude Haiku 4.5($1 / $5 per M)
约 1/18(输出)
vs GPT-5-mini($0.25 / $2 per M)
约 1/7(输出)
vs DeepSeek-V3.2
同档位 · 4× 长度
Ecosystem · Agent 适配

把开源模型,直接塞进
开发者已经在用的 agent 里。

官方明确提到,V4 已针对主流 Agent 产品做了适配和优化。不是再造一个 IDE,是在别人已经铺好的路上,换一个引擎。

Claude Code
Anthropic 官方 CLI,通过 Anthropic 接口兼容直接切换 model_name 即可替换。
OpenClaw
开源 agent 框架,V4-Pro 是当前唯一可做 agentic coding 默认模型的开源选项。
OpenCode
开源编码 agent,V4-Flash 的 1M 上下文和低价,适合长文件 refactor 场景。
CodeBuddy
国产编码助手,V4 是首个原生接入的国产开源模型,绑定昇腾算力链路。

API 同时兼容 OpenAI ChatCompletions 接口与 Anthropic 接口。多数 agent 项目只需改一行 model_name。

「不诱于誉,不恐于诽,
率道而行,端然正己。」
— 荀子 · 非十二子,DeepSeek 官方发布文结语引用