GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除 每日熱門
2025-12-12 12:59:08 來源:第一財經 小 中
拉響“紅色警報”應對谷歌競爭后,當地時間12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此時距離OpenAI更新GPT-5.1只過去了一個月。
(相關資料圖)
此次發布GPT-5.2,被外界視為OpenAI應對谷歌挑戰的一次反擊。上個月谷歌發布Gemini 3后,在硅谷掀起一場AI權力的重新分配,OpenAI作為大模型霸主的地位受到挑戰。
不同于GPT-5.1著重強調具有“情緒價值”、能與人愉快交談,此次應對挑戰,OpenAI拿出了更多“真槍實彈”。GPT-5.2推出了更多智能上的更新,也放出了基準測試的分數。可以看到一些基準測試分數提升明顯。
例如,在知識型工作任務GDPval測試中,GPT-5.2Thinking的分數為70.9%,明顯超過GPT-5.1的38.8%,在抽象推理ARC-AGI-2基準測試中,GPT-5.2Thinking的分數為52.9%,明顯超過GPT-5.1的17.6%。另一些基準測試分數也有提升,在軟件工程SWE-Bench Pro、科學問題GPQA Diamond、科學圖表類問題CharXiv推理、數學競賽HMMT測試中,GPT-5.2Thinking的分數為55.6%、92.4%、88.7%、99.4%,GPT-5.1為50.8%、88.1%、80.3%、96.3%。
基于這些能力提升,OpenAI稱為專業知識型工作打造的GPT-5.2是公司至今最強的模型,“GPT-5.2在眾多基準測試中都刷新了行業水平,例如GDPval測試中,這款模型在涵蓋44個職業的明確知識型工作任務中表現超過了行業專家。”
谷歌發布的Gemini 3 Pro此前在基準測試榜單中“屠榜”,OpenAI此次在基準測試榜單中終于扳回一局。
據此前谷歌放出的數據,在ARC-AGI-2測試中,Gemini 3 Pro分數為31.1%,遠超GPT-5.1的17.6%,GPQA Diamond測試中,Gemini 3 Pro分數為91.9%,超過GPT-5.1的88.1%,這種明顯的能力提升當時引來業內人士預言“未來6個月內很難有公司能超越這一成績”。此次GPT-5.2在上述兩項基準測試中得分終于超過了Gemini 3 Pro。不過,記者留意到,當時谷歌放出的一些分數明顯超過OpenAI的基準測試,例如Humanitys Last Exam,此次GPT-5.2并未放出。
OpenAI此次也強調了新模型在專業工作中的可用性,稱基準測試得分體現了GPT-5.2在制作演示文稿、電子表格等方面的表現優于或與專業人士持平,生成的電子表格和幻燈片在復雜度和格式呈現上相比前一代有明顯提升。不過,用戶要使用新的電子表格和演示文稿功能,需要訂閱付費套餐。長上下文能力使新模型能處理報告、合同、研究論文等文件。而在編碼任務中,GPT-5.2能更可靠地調試生產環境代碼、以更少的人工干預完成修復交付。
OpenAI演示了一些編碼方面的案例,例如,只需要一個提示,GPT-5.2就能生成一個海浪模擬器、一個節日賀卡生成器。其中,海浪模擬器可以拉動數值,改變風速和海浪高度。OpenAI還強調了GPT-5.2 Thinking的幻覺率低于前一代,在一組去標識的查詢中,新模型錯誤回答的頻率比GPT-5.1 Thinking減少了38%。OpenAI稱,這意味著在寫作、研究、分析和決策中模型犯的錯誤更少,GPT-5.2 Thinking在圖表推理和軟件界面理解方面的錯誤率減少了大約一半。此外,OpenAI稱,GPT-5.2 Pro和GPT-5.2 Thinking還是目前最有助于加快科研進展的模型。
GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陸續推出,付費套餐用戶將能率先體驗。不過,OpenAI應對谷歌等競爭而拉響的“紅色警報”,并未隨著GPT-5.2的發布而解除。
此前OpenAI CEO山姆·奧爾特曼(Sam Altman)在內部備忘錄中承認,隨著谷歌等競爭對手的快速進步,公司正面臨“氛圍緊張”和“經濟逆風”的雙重挑戰。
此次OpenAI則表示,拉響“紅色警報”是為了集中資源,是一種明確優先級的方式,公司確實增加了更多與ChatGPT相關的資源。奧爾特曼表示,谷歌發布的Gemini 3對公司的一些指標的影響,比原本預計的更小,但當競爭對手的威脅出現時,應該專注并迅速應對,OpenAI預計在明年1月之前結束“紅色警報”狀態。
GPT-5.2將不是OpenAI應對競爭拋出的唯一產品,奧爾特曼在社交媒體上表示,下周OpenAI還將送出一些“小小的圣誕禮物”。
相關文章
- GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除 每日熱門
- 冬泳健身-每日速遞
- 九問九答!海南自貿港全島封關,將帶來這些紅利
- 中金:維持科倫博泰生物-B(06990)跑贏行業評級 目標價550港元-今日熱文
- 濱江集團:融資凈償還2440.19萬元,融資余額3.49億元(12-11)|焦點信息
- 焦點快播:都體:尤文正在關注被穆帥盛贊的本菲卡17歲左后衛若澤-內托
- 播報:Opera“AI瀏覽器”Neon上線:月費19.9美元,號稱每周都有大變化
- 今日播報!萬順瑞強集團(08427.HK)完成配發21.6萬股
- 整合渠道資源 習酒與中石油昆侖好客成立供應鏈公司 時訊
- 2025年養老概念龍頭梳理
- 摩根士丹利:歐洲央行若維持利率不變 歐元預計將在2026年觸及1.30 百事通
- 焦點簡訊:創遠信科:馮躍軍、吉紅霞及一致行動人持股比例已升至35.65%
- 12月11日山東雅美粘膠短纖價格快訊
- 夸克AI眼鏡已新增產線 目標明年1月充分釋放產能-資訊
- 觀察:廣州一學校為全紅嬋設立雕像?校方:隸屬奧運冠軍群組,非單獨塑像
- 再升科技(603601)龍虎榜數據(12-11)
- 【報資訊】高盛:料地平線機器人-W2026年將有更多車型實現量產 維持目標價15.3港元
- 友發集團擬安排15.5億元進行固定資產投資
- 12月11日成份B指跌幅達1%
- 最新:天邦食品:目前公司未觸及其他或退市風險警示的情形
- 海德股份等成立智合科技公司 含AI相關業務
- 美政府購買6架波音飛機用于遣返移民 每日熱點
- 熱點聚焦:東陽光膠囊“藏飛蟲”,官方客服:我們不清楚
- 每日精選:從青春壯年到兩鬢微霜,20年174次獻血超7萬毫升 襄陽農民同窗將熱血匯入城市脈搏
- 焦點熱議:花海徜徉
- 每日關注!2025年精裝修上市龍頭公司名單梳理(12/10)
- ST惠倫于2025年12月11日復牌 焦點播報
- 【播資訊】黑龍江中久建筑材料有限公司成立 注冊資本100萬人民幣
- 國產首款重載電動垂直起降飛行器AR-E800首飛成功|前沿熱點
- 光掩模供應商Photronics美股盤前大漲15%
熱文推薦
排行推薦
濱江集團:融資凈償還2440.19萬元,融資余額3.49億元(12-11)|焦點信息
焦點快播:都體:尤文正在關注被穆帥盛贊的本菲卡17歲左后衛若澤-內托
播報:Opera“AI瀏覽器”Neon上線:月費19.9美元,號稱每周都有大變化



