当前位置:首页 > 科技资讯 > 正文

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型

北京时间12月12日凌晨,OpenAI正式推出GPT-5.2,将其定位为“当前最强大的专业知识工作模型系列”。

根据OpenAI官方说明,GPT-5.2的核心设计目标是“创造更大的经济价值”。与前代相比,它在电子表格分析、演示文稿生成、代码编程、图像识别、长文档处理以及复杂多步骤项目管理等多个领域,均实现了性能的全面提升。

为了验证其在真实商业环境中的实用性,OpenAI引入了GDPval基准测试,覆盖9大行业、44种职业的1320个实际业务场景。数据显示,GPT-5.2 Pro在约74.1%的任务中表现优于或等同于人类专家。

多家早期合作企业,如Notion、Databricks和Cognition,在测试中发现模型在长链条推理、数据分析和代码审查等任务中的错误率大幅降低,一致性与稳定性显著提升,使其更适合作为“企业级智能体”的核心引擎

一周多前,奥特曼在内部消息中宣布进入“红色警戒”状态,集中资源推进ChatGPT发展。行业原本预期GPT-5.2将硬刚Gemini 3,夺回SOTA地位。然而,本次发布并未显露明显的“应战”火药味或紧迫感。

Google将Gemini 3定义为“新一代智能时代的起点”,侧重于多模态推理、代理能力与搜索及Workspace场景的深度融合。而GPT-5.2则明确指向专业知识场景,强调“经济价值”,定位差异清晰。

整体而言,GPT-5.2的官方文档给人一种略显平淡但更具商业战略定力的印象。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第1张

OpenAI应用业务首席执行官菲吉·西莫(Fidji Simo)在新闻发布会上表示:“我们宣布‘红色警报’,旨在向公司发出明确信号,集中资源于特定领域,以此界定优先事项。”

西莫同时否认GPT-5.2系列模型的发布受“红色警报”行动影响而仓促提前,强调公司已为这款新模型进行了数月的准备。

经过数月筹备推出的GPT-5.2,核心亮点完全围绕“创造更大的经济价值”展开:

三级模型矩阵: 推出 Instant(极速)、Thinking(深度思考)、Pro(最强解难)三个版本,以满足从日常轻量对话到复杂科研的多样化需求。

“打工人”实战能力质变: 基于全新的GDPval基准,GPT-5.2 Pro在74.1%的真实职业任务(如投行建模、PPT制作)中胜过或持平人类专家,效率提升11倍,标志着从“对话”转向“交付”。

逻辑与推理的“封顶”表现: 数学能力在AIME 2025中取得满分(100%),并在ARC-AGI-1抽象推理测试中首次突破90%,展示了卓越的通用智能水平。

Agentic Coding的飞跃: 在更难的SWE-Bench Pro代码测试中表现显著提升,被开发者评价为“自GPT-5以来最大的智能跃升”,尤其擅长复杂的多步骤工具调用和长流程任务。

“完美”的超长上下文: 解决了“大海捞针”的痛点,在256k长度下的多信息点检索(4-needle)准确率接近100%,配合更强的视觉空间理解能力,大幅提升了处理长文档和复杂图表的可靠性。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第2张

01 包含三款模型,比GPT-5.1更贵

本次发布包括三款模型:GPT-5.2 Instant(优化响应速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。

Instant主要用于日常任务,主打速度与轻量推理;Thinking用于深度逻辑推理与复杂项目,更适用于企业工作流;Pro面向研究与最高质量输出,推理链条最强、错误率最低。

OpenAI采取了“比5.1昂贵、但仍低于其他前沿模型”的定价策略,为GPT-5.2系列推出分层API定价。

其中GPT-5.2 Instant与GPT-5.2 Thinking采用统一计费标准,输入单价为每百万tokens 1.75美元,输出单价为每百万tokens 14美元;高端版本GPT-5.2 Pro定价更高,输入单价达每百万tokens 21美元,输出单价为每百万tokens 168美元。

尽管Pro等高端版本的单次token单价更高,但OpenAI强调,GPT-5.2系列在真实智能体任务中具备更高的token使用效率,因此在部分企业场景中,完成同等质量任务的整体成本可能降低。官方同时说明,Pro版本在实际使用中能显著减少“推理废话”,输出内容更紧凑精炼,这一特性也将进一步帮助用户控制使用费用。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第3张

图:GPT-5.2系列模型的定价

同时,ARC Prize(ARC-AGI)被业界公认为目前最难、也是最能体现AI“通用智能(AGI)”水平的基准测试。根据ArcPrize的测算,GPT-5.2的性价比继续提升,一年内效率提升了约390倍。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第4张

GPT-5.2系列已向Plus、Pro、Go、Business、Enterprise用户陆续开放,并同步上线API。面向工程与程序员群体的GPT-5.2 Codex将在未来数周内推出,进一步针对编程任务做专项优化。

02 核心直指专业知识工作与企业级应用的能力提升

GPT-5.2系列模型的核心定位是“提升专业工作效率”与“增强长期任务一致性”。根据官方数据,GPT-5.2系列在多项关键评估基准上取得了当前公开模型中的最高成绩。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第5张

图:GPT-5.2基准评测概览

OpenAI官方表示,GPT-5.2聚焦于提升企业用户的专业工作流效率,包括表格处理、演示文稿生成、代码编写、图像理解、工具调用、多文件工程任务处理等能力。GPT-5.2的文本生成结构相较以往更清晰,逻辑链条更稳定,特别是在软件说明文档、技术手册生成、长篇报告编写等领域,模型内部的“结构化写作倾向”更加明显。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第6张

图:GPT-5.1、GPT-5.2制表效果对比

GPT-5.2 Thinking在面向专业知识与实际工作的GDPval任务集中达到了可与行业平均专业人员相匹敌的水准,在所有对比任务中“胜出或持平”的占比达到70.9%。在等效任务中,GPT-5.2 Thinking的完成速度超过专业人士11倍以上,同时成本低于1%。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第7张

在真实企业环境中,多家早期合作伙伴测试表明模型在复杂推理链条与工具调用一致性上实现明显改进:

Notion、Box、Shopify:观察到更稳健的长链条推理,在复杂界面和数据库操作中错误率下降

Databricks、Hex:数据智能体任务的SQL/数据分析链路显著更一致

Cognition、Warp:认为其代码审查和定位缺陷能力达到当前模型的领先水平

此外,OpenAI特别强调GPT-5.2在“多工具编排任务”中表现更稳定,能够在单次会话中处理二十多个工具调用步骤,并在系统提示(system prompt)显著简化的情况下维持高一致性。这一点使其更适合作为“公司级智能体核心大脑”。

03 编码、事实性与长文本处理全面进步,支撑企业复杂开发需求

为了支撑企业级的复杂开发需求,GPT-5.2 Thinking在软件工程能力上实现了飞跃。

GPT-5.2 Thinking在SWE-Bench Pro严格评测中取得55.6%准确率,在Python专项SWE-Bench Verified评测中达到80%。这意味着GPT-5.2在自动化调试生产系统、重构大型代码库、理解遗留系统以及处理复杂功能需求方面,已接近部分自动化代码助手的可部署标准。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第8张

图:GPT-5.2 Thinking在SWE-Bench Pro的跑分

GPT-5.2在前端开发(尤其是现代UI、WebGL/Three.js、复杂3D界面)方面也加入了专门优化,提升了对组件结构、事件绑定和布局逻辑的理解能力。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第9张

图:GPT-5.2 Thinking在匿名真实查询集合上的错误率降低

在事实性方面,GPT-5.2 Thinking在匿名真实查询集合上的错误率相较上一代下降约30%。OpenAI强调,GPT-5.2在面对模糊或信息不完整的查询时,会更主动给出依据来源或使用结构化推理路径,以降低误导性回答的概率。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第10张

图:GPT-5.2 Thinking在长上下文推理方面的表现

在长上下文推理方面,GPT-5.2 Thinking支持最高256k tokens输入,并在“四针(4-needle)”检索任务中实现接近100%准确率,超过已有商用模型的水平。

该模型还在长文档问答、合同审查、多文件工程跨引用等任务中表现出更高稳定性。若任务长度超过上下文窗口,模型可配合Responses/compact接口,通过“摘要性迭代检索”进一步扩展可处理规模。

04 智能体工具调用与视觉理解大幅增强

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第11张

企业工作流往往涉及跨系统的复杂操作。在智能体任务方面,GPT-5.2 Thinking在Tau2-bench Telecom多轮客服任务的工具调用测试中取得98.7%完成度,该评测覆盖订票、退款、延误补偿、物品遗失与跨系统调度等场景,反映其可承担更高自治度的流程任务。

OpenAI表示,GPT-5.2的“工具决策粒度”更加稳定,推理链条更可控,在连续20~40步的任务中不易出现跳步、误调用或不必要调用等问题,使其更适合作为长流程自动化智能体(Autonomous Agent)的执行核心。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第12张

图:在CharXiv(科研图表推理)中准确率提升约8个百分点

在视觉能力方面,GPT-5.2 Thinking的图表推理和界面理解能力显著增强。其软件界面识别错误率减少约一半,在CharXiv(科研图表推理)中准确率提升约8个百分点。OpenAI同时对模型加入了大规模软件UI数据训练,使其更准确理解控件、菜单层级与界面逻辑关系。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第13张

图:GPT-5.2 Thinking在图像中元素的位置把握上更强

与之前的模型相比,GPT-5.2 Thinking在图像中元素的位置把握上更强,这有助于解决相对布局在问题中起关键作用的任务。在示例中,即使是低质量的图像,GPT-5.2也能识别出主要区域,并放置大致与每个组件真实位置相符的框,而GPT-5.1仅能标注少数几个部分,并且对它们的空间排列理解明显较弱。

05 科学推理、数学能力与抽象智能的进展

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第14张

图:GPT-5.2 Pro在GPQA Diamond中的表现

GPT-5.2 Pro在GPQA Diamond(研究生难度的大规模科学知识测试)中取得93.2%准确率,在现有同行测试中位居前列。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第15张

图:GPT-5.2 Thinking在FrontierMath测试中的表现

在FrontierMath(涵盖多步骤数学推理及高难度证明问题)中,GPT-5.2 Thinking取得40.3%正确率,相较上一代有显著提升。OpenAI披露,一支科研团队已使用GPT-5.2 Pro协助探索统计学习理论中的一个开放问题,模型提出的证明在后续人工审核中被证实成立。

在ARC-AGI系列评测方面,GPT-5.2 Thinking在ARC-AGI-2(Verified)中从上一代的17.6%提升至52.9%,被视为该模型在“抽象智能”“非模式记忆”“类比推理能力”上的重要进展。GPT-5.2 Pro在ARC-AGI-1中也超过90%,成为首个达成该水平的主流模型。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第16张

图:心理健康评估

在安全策略方面,GPT-5.2延续“safe completion”训练框架,重点强化心理健康、风险倾向、敏感身份类对话场景的表现。OpenAI还正式宣布开始部署年龄预测系统,可在疑似未成年用户使用模型时自动切换到受限模式与额外安全过滤。

06 写在最后

在发布几条推广GPT-5.2的帖子后,Sam Altman还发布了一条“情绪价值贴”——过去的十年十分精彩;在OpenAI工作比我想象的还要特别。和一条彩蛋帖“下周我们还会送您一些小小的圣诞礼物”,暗示可能还有新的模型(产品)发布。

OpenAI发布GPT-5.2:强化专业知识工作与经济价值创造的领先模型 GPT-5.2  专业知识工作 经济价值 企业级智能体 第17张

就在几个小时前,OpenAI宣布对迪士尼10亿美元的投资。ChatGPT以后可以理直气壮地合成“米老鼠”了。

ChatGPT火爆三年后,SOTA模型不断刷新Benchmark已经不能带给行业兴奋点,但是每次OpenAI更新新模型的情绪价值仍在。

同时,这家站在AGI浪尖的独角兽,必须开始背负更多的商业期待,也要解决一个又一个现实中的“米老鼠问题”。