根据最新的网络信息,OpenAI已于北京时间2026年3月6日正式发布了新一代大模型GPT-5.4。这标志着AI从“对话式助手”向“自主执行任务的智能体”迈出了关键一步。

以下是基于现有信息,对GPT-5.4的系统全面介绍:

一、 核心定位:能力融合的“数字员工”

GPT-5.4并非单一能力的简单升级,而是OpenAI首次将前沿推理、强大编码和自主智能体能力整合于单一模型。其核心目标是从“回答问题”转向“直接完成工作”,重塑AI在专业场景下的工作范式,被官方定义为“迄今能力最强、效率最高的专业工作前沿模型”。

二、 模型版本与可用性

GPT-5.4系列主要包含两个版本,面向不同用户群体:

  • GPT-5.4 Thinking:面向ChatGPT Plus、Team和Pro付费用户。它在ChatGPT中新增了“思考过程预览”功能,用户可在模型执行中实时调整需求,减少沟通成本。
  • GPT-5.4 Pro:面向需要极致性能的企业级客户(Pro和Enterprise计划),专门用于处理最复杂的任务。

三、 核心能力与关键升级

1. 原生电脑操控能力 (Computer-Use Capabilities)
这是GPT-5.4最具突破性的功能。作为OpenAI首款原生具备该能力的通用模型,它可以通过理解屏幕截图,自主发出鼠标和键盘指令,像人类一样跨设备、跨应用操作软件。

  • 性能表现:在衡量桌面环境导航能力的OSWorld-Verified基准测试中,GPT-5.4取得了75.0% 的成功率,首次超过了人类平均水平(72.4%),远超上一代GPT-5.2(47.3%)。

2. 超长上下文窗口 (1M Token Context)
模型支持高达100万Token的上下文窗口,是OpenAI迄今提供的最大容量。这意味着它可以在单次任务中处理如完整项目文档、长篇财务记录或复杂代码库等海量信息,显著降低对复杂检索增强生成(RAG)架构的依赖。

3. 推理与专业知识工作
GPT-5.4 Thinking模式通过“推理时计算”,在复杂任务上投入更多算力,实现“慢思考”以提高可靠性。

  • 性能表现:在GDPval基准测试(评估44种职业的知识工作)中,GPT-5.4在83% 的任务中达到或超过了行业专家水平,而GPT-5.2为70.9%。
  • 准确性:模型的事实准确性显著提升,错误率较GPT-5.2降低33%

4. 编码能力 (Coding Capabilities)
模型深度融合了此前领先的GPT-5.3-Codex的编码优势。在Codex中开启“/fast”模式后,token生成速度可提升1.5倍,并推出了能边构建应用边测试的“Playwright (Interactive)”实验性功能。

5. 工具搜索机制 (Tool Search)
这是一项关键的架构升级。模型不再需要预加载所有工具说明,而是可以在需要时按需检索工具定义,从而大幅减少Token消耗。在Scale的MCP Atlas基准测试中,启用该功能在保持准确率不变的前提下,总Token消耗量减少了47%

四、 性能与基准测试亮点

除了上述提到的测试,GPT-5.4还在多项评测中取得领先:

  • 视觉与推理:在MMMU-Pro视觉理解测试中,准确率达81.2%。
  • 浏览器使用:在Online-Mind2Web测试中,仅凭截图交互的成功率高达92.8%。
  • 高级数学:在极其困难的FrontierMath Tier 4基准上,GPT-5.4 Pro得分38.0%(上代约31.3%,而一年前最好成绩为2%)。

五、 定价与局限性

  • 定价:API价格较前代略有上涨。GPT-5.4标准版为输入2.5美元/百万Token,输出15美元/百万Token;Pro版则高达输入30美元/百万Token,输出180美元/百万Token。但因Token效率提升,实际任务总成本可能降低。
  • 早期局限性:据HyperWrite CEO Matt Shumer实测反馈,GPT-5.4初期存在三大问题:
    1. 前端界面表现不及竞品。
    2. 有时会忽略现实世界的常识性背景信息(如规划行程时未考虑春假人流)。
    3. 在OpenClaw中测试时,偶尔会在完成任务前突然停止。

六、 行业影响与展望

GPT-5.4的发布被视为AI竞争焦点从“模型规模”转向“实际任务执行能力”的标志性事件。它与开源智能体框架OpenClaw的结合,被视为“天作之合”,让个人AI助手的构想变得触手可及。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐