GPT-5.4介绍

C7211BA

988人浏览 · 2026-03-06 16:36:07

C7211BA · 2026-03-06 16:36:07 发布

根据最新的网络信息，OpenAI已于北京时间2026年3月6日正式发布了新一代大模型GPT-5.4。这标志着AI从“对话式助手”向“自主执行任务的智能体”迈出了关键一步。

以下是基于现有信息，对GPT-5.4的系统全面介绍：

一、核心定位：能力融合的“数字员工”

GPT-5.4并非单一能力的简单升级，而是OpenAI首次将前沿推理、强大编码和自主智能体能力整合于单一模型。其核心目标是从“回答问题”转向“直接完成工作”，重塑AI在专业场景下的工作范式，被官方定义为“迄今能力最强、效率最高的专业工作前沿模型”。

二、模型版本与可用性

GPT-5.4系列主要包含两个版本，面向不同用户群体：

GPT-5.4 Thinking：面向ChatGPT Plus、Team和Pro付费用户。它在ChatGPT中新增了“思考过程预览”功能，用户可在模型执行中实时调整需求，减少沟通成本。
GPT-5.4 Pro：面向需要极致性能的企业级客户（Pro和Enterprise计划），专门用于处理最复杂的任务。

三、核心能力与关键升级

1. 原生电脑操控能力 (Computer-Use Capabilities)
这是GPT-5.4最具突破性的功能。作为OpenAI首款原生具备该能力的通用模型，它可以通过理解屏幕截图，自主发出鼠标和键盘指令，像人类一样跨设备、跨应用操作软件。

性能表现：在衡量桌面环境导航能力的OSWorld-Verified基准测试中，GPT-5.4取得了75.0% 的成功率，首次超过了人类平均水平（72.4%），远超上一代GPT-5.2（47.3%）。

2. 超长上下文窗口 (1M Token Context)
模型支持高达100万Token的上下文窗口，是OpenAI迄今提供的最大容量。这意味着它可以在单次任务中处理如完整项目文档、长篇财务记录或复杂代码库等海量信息，显著降低对复杂检索增强生成（RAG）架构的依赖。

3. 推理与专业知识工作
GPT-5.4 Thinking模式通过“推理时计算”，在复杂任务上投入更多算力，实现“慢思考”以提高可靠性。

性能表现：在GDPval基准测试（评估44种职业的知识工作）中，GPT-5.4在83% 的任务中达到或超过了行业专家水平，而GPT-5.2为70.9%。
准确性：模型的事实准确性显著提升，错误率较GPT-5.2降低33% 。

4. 编码能力 (Coding Capabilities)
模型深度融合了此前领先的GPT-5.3-Codex的编码优势。在Codex中开启“/fast”模式后，token生成速度可提升1.5倍，并推出了能边构建应用边测试的“Playwright (Interactive)”实验性功能。

5. 工具搜索机制 (Tool Search)
这是一项关键的架构升级。模型不再需要预加载所有工具说明，而是可以在需要时按需检索工具定义，从而大幅减少Token消耗。在Scale的MCP Atlas基准测试中，启用该功能在保持准确率不变的前提下，总Token消耗量减少了47% 。

四、性能与基准测试亮点

除了上述提到的测试，GPT-5.4还在多项评测中取得领先：

视觉与推理：在MMMU-Pro视觉理解测试中，准确率达81.2%。
浏览器使用：在Online-Mind2Web测试中，仅凭截图交互的成功率高达92.8%。
高级数学：在极其困难的FrontierMath Tier 4基准上，GPT-5.4 Pro得分38.0%（上代约31.3%，而一年前最好成绩为2%）。

五、定价与局限性

定价：API价格较前代略有上涨。GPT-5.4标准版为输入2.5美元/百万Token，输出15美元/百万Token；Pro版则高达输入30美元/百万Token，输出180美元/百万Token。但因Token效率提升，实际任务总成本可能降低。
早期局限性：据HyperWrite CEO Matt Shumer实测反馈，GPT-5.4初期存在三大问题：
1. 前端界面表现不及竞品。
2. 有时会忽略现实世界的常识性背景信息（如规划行程时未考虑春假人流）。
3. 在OpenClaw中测试时，偶尔会在完成任务前突然停止。