新一代旗舰大语言模型,以 1M 超长上下文为标配,兼具顶尖推理能力与极致性价比,全面开源。
DeepSeek V4 是 DeepSeek 团队在 2026 年 4 月发布的新一代大语言模型,包含 Pro 和 Flash 两个版本,在推理、编程、世界知识等多项能力上达到世界领先水平。
在数学、STEM、编程等推理基准测试中全面领先所有开源模型,比肩顶级闭源模型。
在 Agentic Coding 基准测试中达到开源 SOTA(最优水平),无缝集成 Claude Code、OpenClaw、OpenCode 等主流 AI Agent。
世界知识能力领先所有当前开源模型,仅次于 Gemini 3.1 Pro。
以 1M token 上下文长度作为官方默认配置,采用创新的 Tokenwise 压缩 + DSA(DeepSeek Sparse Attention)架构,显著降低计算与内存成本。
支持 Thinking Mode(深度思考链)和 Non-Thinking Mode(快速响应),可根据场景灵活切换。
权重和技术报告均已开源在 HuggingFace,推动 AI 社区的开放与进步。
DeepSeek V4 提供两个版本,兼顾极致性能与高效经济。
| 对比项 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| DeepSeek-V4-Flash 快速·经济·高效 | ⚡ 闪电版 默认选择,兼顾速度与质量 | 🏆 专业版 极致性能,顶级推理 |
| 总参数量 | 284B | 1.6T |
| 激活参数量 | 13B | 49B |
| 上下文长度 | ✓ 1M | ✓ 1M |
| 最大输出长度 | ✓ 384K | ✓ 384K |
| 思考模式 | ✓ 支持(默认启用) | ✓ 支持(默认启用) |
| JSON 输出 | ✓ | ✓ |
| 工具调用 (Tool Calls) | ✓ | ✓ |
| 上下文缓存 (KV Cache) | ✓ | ✓ |
| Chat Prefix 补全 (Beta) | ✓ | ✓ |
| FIM 补全 (Beta) | 仅限非思考模式 | 仅限非思考模式 |
| Strict 模式 (Beta) | ✓ | ✓ |
| API 格式兼容 | OpenAI + Anthropic | OpenAI + Anthropic |
| 推理能力 | 接近 V4-Pro | 世界顶级 |
| Agent 任务 (简单) | 与 V4-Pro 持平 | 顶级 |
DeepSeek V4 提供丰富的 API 功能,覆盖从简单对话到复杂 Agent 的各类场景。
模型可以调用外部工具来增强自身能力,支持思考模式和非思考模式下的工具调用。在思考模式下,模型可以进行多轮推理与工具调用,持续提升回答质量。
通过 response_format: { type: 'json_object' } 确保模型始终输出合法 JSON 字符串,便于结构化的数据解析与下游处理。
默认对所有用户启用,无需修改代码。基于磁盘缓存技术,当后续请求与之前请求存在重叠前缀时,重叠部分自动从缓存读取(即"缓存命中"),成本仅为非命中的 1/50。
在 Chat Completion API 中,用户可提供 assistant 前缀消息,让模型基于该前缀自动续写。例如设置 assistant 前缀为 ```python\n 强制输出 Python 代码。
Fill In the Middle 功能,支持提供前缀和后缀(可选),模型自动补全中间内容。常用于代码补全场景,已与 Continue.dev VSCode 插件集成。
完整支持多轮对话上下文拼接。在思考模式下,不含工具调用的历史轮次无需传递 CoT 内容;含工具调用的轮次则必须完整传递 reasoning_content。
DeepSeek V4 已与以下主流 AI Agent 深度集成:
思考模式(Thinking Mode)是 DeepSeek V4 的核心能力,模型在输出最终答案前先生成思维链推理,显著提升回答准确性。
| 参数 | 说明 |
|---|---|
| 思考模式开关 | {"thinking": {"type": "enabled/disabled"}}(默认启用) |
| 推理努力度 | {"reasoning_effort": "high/max"}(OpenAI 格式){"output_config": {"effort": "high/max"}}(Anthropic 格式)默认 high,复杂 agent 请求自动设为 max |
| 不受支持的参数 | temperature、top_p、presence_penalty、frequency_penalty (传入不会报错但无效果) |
| CoT 输出位置 | 通过 reasoning_content 字段返回,与 content 同级 |
使用 OpenAI SDK 时,需将 thinking 参数放在 extra_body 中:
价格单位为每 1M tokens。V4-Pro 当前享受 75% 折扣,持续至 2026/05/31 15:59 UTC。
兼容 OpenAI / Anthropic API 格式,只需修改 base_url 和 model 名称即可快速接入。
| 参数 | 值 |
|---|---|
| Base URL (OpenAI 格式) | https://api.deepseek.com |
| Base URL (Anthropic 格式) | https://api.deepseek.com/anthropic |
| Model (Flash) | deepseek-v4-flash |
| Model (Pro) | deepseek-v4-pro |
| API Key | 前往 platform.deepseek.com 申请 |
旧模型名称 deepseek-chat 和 deepseek-reasoner 将在 2026 年 7 月 24 日 后彻底弃用,请尽快迁移至 deepseek-v4-flash(deepseek-chat 对应 Flash 非思考模式,deepseek-reasoner 对应 Flash 思考模式)。