一、从”速度与深度的割裂”到”按需推理”
2025 年 10 月,GPT‑5 成为 Microsoft 365 Copilot 的默认模型。同年 12 月 4 日起,微软全球范围上线了三档对话模式选择器:
- Auto(默认):Copilot 自行判断推理深度
- Quick response(即时应答):Copilot 直接作答
- Think deeper(深度推理):Copilot 花更长时间获取更好的答案
该功能对所有租户默认启用,无需管理员配置,用户选择会跨会话保留。GPT‑5 同时引入了动态模型路由(Dynamic Model Routing)机制——系统根据提示复杂度自动决定使用快速高吞吐变体还是更深度的推理变体。
在此基础上,微软于 2026 年 3 月 3 日先行推出 GPT‑5.3 Instant。该模型基于 GPT‑5.2 Instant 构建,显著改进了日常对话质量:回答更准确、表达更丰富、内容更直接实用,使 Copilot 在适当时提供有用回复,而不是默认使用免责声明或拒绝响应。在涉及网页信息的问题上,GPT‑5.3 Instant 能够更好地将搜索结果与自身知识和推理相综合,输出不再仅受检索内容左右,而是更贴近任务实际需求。仅三天后的 3 月 6 日,GPT‑5.4 Thinking 正式发布,二者形成互补架构:GPT‑5.3 主攻速度与日常质量,GPT‑5.4 主攻深度推理。

二、GPT‑5.4 Thinking 的核心能力跃迁
OpenAI 于 2026 年 3 月 5 日正式发布 GPT‑5.4,将其定位为面向专业工作的最强大且最高效的前沿模型。它将推理、编码和 Agentic 工作流的最新进展整合为一体,并融入了 GPT‑5.3‑Codex 的编程专长。在 Microsoft 365 Copilot 中,该模型的核心能力提升集中在以下维度:
-
深度推理与多步骤任务:GPT‑5.4 在处理复杂工作时能进行更深层的思考,在多步骤任务、技术性提示和长链工作流中保持更高的清晰度和一致性,产出更强的首轮草稿而无需反复交互。它也是 OpenAI 迄今最具事实准确性的模型:在用户标记事实错误的提示集上,GPT‑5.4 单条声明虚假概率降低 33%,完整回复含错误概率降低 18%(均相对 GPT‑5.2)。
-
编码能力强化:GPT‑5.4 整合了 GPT‑5.3‑Codex 的行业领先编码能力,同时改善了模型在工具、软件环境和涉及电子表格、演示文稿、文档等专业任务中的表现。在 SWE-Bench Pro(公开版)上达到 57.7%(GPT‑5.2 为 55.6%)。
-
Agentic 工作流自治性:GPT‑5.4 是 OpenAI 首个具备原生计算机操作能力的通用模型,能使 Agent 跨应用程序执行复杂工作流。在 Toolathlon(衡量工具使用效率的基准)上达到 54.6%(GPT‑5.2 为 46.3%)。在 OSWorld-Verified(桌面环境导航)上达到 75.0%,超越人类表现的 72.4%(GPT‑5.2 仅 47.3%)。
-
超大上下文支持:在 API 和 Codex 中,GPT‑5.4 支持最高 100 万标记(1M tokens) 的上下文窗口,使 Agent 能够在超长时间跨度内规划、执行和验证任务。据第三方分析,这意味着 Copilot 在处理大量相关文档时能保持更强的信息连贯性。
-
推理效率提升:GPT‑5.4 是 OpenAI 迄今 token 效率最高的推理模型,相比 GPT‑5.2 使用更少的内部 token 即可解决问题,从而实现更低的 token 消耗和更快的速度。
关键基准测试对比(数据来自 OpenAI 官方发布):
| 基准测试 | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 |
|---|---|---|---|
| GDPval(胜出或持平率) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0% | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
其中 GDPval 测试涵盖美国 GDP 贡献前 9 大行业中 44 个职业的专业知识工作任务,包括销售演示文稿、会计电子表格、急诊排班表、制造图表等真实工作产物。在电子表格建模任务中,GPT‑5.4 平均得分 87.3%(GPT‑5.2 为 68.4%);在演示文稿评估中,人类评审者 68.0% 的情况下更偏好 GPT‑5.4 的产出。
与 GPT‑5.3 Instant 的定位差异:GPT‑5.3 在结构化混乱信息方面表现卓越(如将零散的头脑风暴整理为条理清晰的董事会议程),但在自然温暖的人际沟通写作上可能偏于生硬。GPT‑5.4 则专注于深度——分析冗长合同、构建详细财务模型、跨多文档比较战略方案或解决需要持续推理的技术问题。日常轻量级任务建议使用 Auto 模式或 GPT‑5.3 Quick Response,而非全程使用 GPT‑5.4。
三、Work IQ:让深度推理扎根组织上下文
GPT‑5.4 的推理能力之所以能在企业场景中产生实际价值,离不开 Work IQ 的支撑。根据 Microsoft Learn 官方文档,Work IQ 是 Microsoft 365 Copilot 背后的智能编排层,基于 OpenAI 和 Anthropic 等提供商的前沿基础模型构建,能够理解工作上下文、关系和模式,使 Copilot 和 Agent 提供比仅依赖连接器方式更快速、更准确、更安全的响应。
Work IQ 的架构由三个集成层组成:
-
数据层:提供对 Microsoft 365、Dynamics 365、Power Apps 及已连接业务系统中结构化和非结构化信息的安全访问。Microsoft Graph 数据涵盖 SharePoint 和 OneDrive 中的文档(包括 Word、Excel、PowerPoint 等)、Outlook 邮件、Teams 会议和聊天,以及描述协作与活动模式的元数据和信号。此外,联合连接器(Federated connectors,早期访问预览)通过 Model Context Protocol (MCP) 实时读取数据,无需传统索引即可让实时或敏感数据源通过 Copilot 可发现。
-
上下文层:包括 Copilot 记忆(捕获显式用户操作如自定义指令和已保存记忆,以及隐式活动模式信号)和语义索引(将组织数据映射为高级词汇和语义索引以驱动搜索相关性和准确性,同时尊重租户内的组织边界与权限结构)。
-
技能与工具层:Work IQ MCP 工具使 Agent 能在 Microsoft 365 上下文中执行实时操作,涵盖邮件、日历、Teams、SharePoint、OneDrive、Word、Dataverse 等。Copilot 操作(以插件实现)使声明式 Agent 能通过自然语言提示与 MCP 服务器或 REST API 交互,不仅查询信息,还可创建、更新和删除外部系统中的数据。
安全与合规保障方面,Work IQ 遵守所有现有的访问权限、敏感度标签和合规规则——仅有用户或 Agent 有权访问的信息才会被呈现,且与 Microsoft 365 的其余部分一样受审计和监控约束。这意味着即使启用深度推理,企业数据仍然不会超出 Microsoft 365 信任边界。
四、典型使用场景与能力映射
以下场景基于 GPT‑5.4 Thinking 的公开能力特征与 Work IQ 的数据编排能力进行归类,将模型核心能力与企业知识工作者的典型需求一一对应:
| 使用场景 | 对应核心能力 | 相较传统模式 / Quick response 的变化 |
|---|---|---|
| 跨文档深度分析 | 深层推理 + 超大上下文 | 以往需多轮对话引导 Copilot 逐步汇总;GPT‑5.4 可一次性处理长文档,给出结构化评分与推理依据。在专业知识工作基准 GDPval 上达到 83.0% 的胜出/持平率 。 |
| 跨渠道信息综合(如邮件、Teams、文档、会议记 | 深度推理 + Work IQ 跨源注智 | 传统模式侧重”检索”(定位某封邮件);GPT‑5.4 配合 Work IQ 跨 Outlook、Teams、SharePoint 等数据源主动关联上下文,将碎片化信息综合为连贯叙事。Work IQ 的推断能力能识别不同渠道中实际指向同一事件的讨论。 |
| 决策支持与方案评审(如技术选型、供 | 多维度推理 + 上下文记忆 | GPT‑5.4 可按设定维度自动评估各方案优劣并量化。电子表格建模任务得分 87.3%(GPT‑5.2 为 68.4%) ,适用于构建详细财务模型和战略比较 。 |
| 技术方案与代码生成(如复杂脚本或架 | 编码能力强化 + 推理一致性 | 融合 GPT‑5.3‑Codex 编程能力,在 SWE-Bench Pro 上达到 57.7% 。复杂编码任务中逻辑更清晰、意图把握更准确,减少反复调试。 |
| 自主多步骤工作流执行(如 | Agentic 工作流 + 工具搜索 | GPT‑5.4 引入工具搜索(Tool Search) 能力,帮助 Agent 更高效地找到并使用正确的工具 。Toolathlon 得分 54.6%(GPT‑5.2 为 46.3%) ,多步骤自主规划与执行可靠性显著提升。 |
| IT 运维与安全合规(如 | 深度推理 + Work IQ 情境感知 | 以往安全/IT 人员需手动整合多渠道信息。Work IQ 能够识别邮件线程与 Teams 对话实际涉及同一事件,自动关联相关背景。GPT‑5.4 在此基础上进行推理归因,辅助 SecOps 团队快速定位风险并生成优先级行动清单。 |
需要注意的权衡:更深度的推理模型在内部推理过程中消耗的 token 显著更多。Microsoft 365 Copilot 在公平使用原则下运行,后台会进行速率限制以确保公平分配——如果团队全天都使用 GPT‑5.4 Think Deeper 处理每条简单消息,可能会比坚持使用 Auto 模式更快触及节流限制。因此建议将手动选择 GPT‑5.4 保留给真正需要深度推理的工作:战略文档、复杂分析、详细报告和多步骤问题求解。此外,AI 生成内容仍可能存在局限,关键结论需人为审核验证。
五、如何启用
GPT‑5.4 Thinking 已面向以下用户开放:
- Microsoft 365 Copilot 用户(优先访问权限)和 Microsoft 365 Copilot Chat 用户(标准访问权限):在 Copilot Chat 中,点击输入框上方的模型选择器,在 More 下拉菜单中选择 GPT‑5.4 Think deeper。
- Copilot Studio 开发者:在早期发布周期环境中选择 GPT‑5.4 Reasoning。重要细节:直接选择 “GPT 5.4 Think Deeper” 而非默认的 “Think Deeper” 可确保使用该特定模型——因为默认 Think Deeper 通常会选择当前最可用的模型以平衡结果质量与响应时间。
GPT‑5.4 Thinking 标志着 Microsoft 365 Copilot 从单一通用助手向分层推理系统的实质转变。配合 GPT‑5.3 Instant 的即时应答能力和 Work IQ 的组织上下文编排,企业用户获得了一套按需匹配推理深度的完整工具链。微软官方强调将持续根据用户反馈优化体验,而模型选择权的下放——让用户根据任务复杂度自主选择认知模式——正在重新定义企业级 AI 助手的交互范式。