首页 > 汽车知识 > 汽车热点 > 超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

发布时间:2024-12-21 22:38:35来源: 13041198719

圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。

美东时间12月20日周五,在为期12个工作日的线上新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,而且一开始就要推出两个版本,一个正式的o3,还有一个相对较小的精简版o3-mini。

OpenAI的CEO Sam Altman在直播中提到,OpenAI本次12日的活动第一天官宣了上线正式版o1、所谓满血o1。活动最后一天又有o3亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。

逻辑上说,o1的下一代应该命名为o2,至于为什么新模型叫o3,之前媒体称,OpenAI是为了避免和名为O2的英国电信服务商冲突。Altman也确认了这点,说出于对O2的尊敬,并没有起同样的名字。

直播中,Altman称o3是“一个非常、非常聪明的模型”。OpenAi的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时测试显示,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。

o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%
今年9月,OpenAI 发布o1的预览版o1 preview时称,o1是第一个具备真正通用推理能力的大模型,它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。据OpenAI评估,o1在该测试中全面超过了人类博士专家,准确率达到78.3%,而人类专家的得分为69.7%。

本周五的直播中,OpenAI展示了o3的测评表现:

根据OpenAI8月推出的SWE-bench Verified代码生成评估基准,在软件工程的能力测评中,o3的准确度得分71.7,即准确率71.7%,远超得分48.9的o1和得分41.3的o1 preview。也就是说,o3的准确率比o1正式版高将近47%,比o1预览版高将近74%。
在竞争性编程网站Codeforces的竞争性代码测评中,o3取得2727的Elo评分,o1评分1891,o1 preview评分1258。这个测评结果显示,竞争性代码方面,o3的评分比o1正式版高44%,是o1预览版的两倍多。

经过2024年AIME数学竞赛的题目测试,o3的准确度得分为96.7、即准确率96.7%,o1和o1 preview分别得分83.8和56.7。从竞赛数学的角度看,o3的准确率比o1正式版高15%,比o1预览版高近71%。
以人类博士专家的测试考验,在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o3的准确度得分为87.7,即准确率87.7%,o1和o1 preview分别得分78.0和78.3。o3的准确率比o1高将近13%,比o1预览版高12%。

迈向类人智能取得突破 AGI相关测试最佳成绩达到人类水平
除了以上和o1对比的编码、数学、自然科学测评结果,OpenAI周五还展示了,o3的推理能力已经更加接近实现AGI。

OpenAI对o1和o3都进行了名为ARC-AGI的测试。ARC-AGI是一项旨在评估 AI 系统是否能有效在其训练数据之外获得新技能的测试,运用半私有评估集验证的测评结果。

下图可见,以100%为最高分的ARC-AGI评估结果显示,o1的得分在25%到32%,而o3的最低成绩为75.7%,最高成绩为87.5%。从这个结果看,o3的最佳成绩超过了标志着达到人类水平的门槛85%。


创始ARC-AGI标准的前谷歌高级工程师、AI研究员François Chollet表示,OpenAI这些推理模型在AGI测试中取得进步是“稳健的”。

Chollet周五在社交媒体X发帖,公布了同OpenAI合作进行的ARC-AGI测试结果,称“我们相信这代表了让AI适应新任务的重大突破。”

Chollet解释说,在低计算模式下、即计算中每个任务 20 美元的半私人评估中,o3的得分为 75.7%,在高计算模式下、即每个任务数千美元的评估中,o3的得分为 87.5%。它不仅仅是蛮力,它是新领域的功能,需要科学领域认真关注。


OpenAI计划明年初发布o3 可能一段时间内都不会面向大众上线
虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

从本周五开始,OpenAI允许安全研究人员可以注册访问o3 和 o3-mini的预览。OpenAI的一名发言人本周五称,OpenAI计划明年初正式发布这些新的o3模型。

周五的直播中,Altman暗示,o3系列可能在一段时间内都不会向普通大众推广使用。因为他说,在OpenAI正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。Altman说,

在OpenAI发布o3之前,“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,你必须能够证明,这种模型在这些方面是安全的,就像你对一种新药或一架新飞机或其他什么的证明一样。”

本周四,谷歌宣布推出全新的测试模型——Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。

相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

汽车热点更多>>

知晓并通知:《诚旸资本》各种行骗手段!做数据任务一套接一套!! 三分钟科普:《Ver传媒》被骗后如何追回?真的不可信!钱都没了! 冬季被骗的局:《幸福蓝海影视》真的假的,不谈感情、手法凌厉带你走进真相! 三分钟科普:《金鼎晨文化》被骗不能出金有问题带你揭秘!! 无所遁形:《仨华影业》被骗的局亏损不能出金彻底骗没了才醒悟! 骗软曝光:《欣旺达APP》5分钟为你讲解文化传媒APP是不可信软件! 警醒小心:《双星app》无法出金提现!不能提现真相!! 网友亲身经历:《华腾数据》点赞关注不是真的!不靠谱不可信真相震惊! 冬季防骗:《优为文化传媒》约?被骗不能提出是真实!男子步步沉沦无法自拔! 瞒天过海:《娟姐社区资源》被骗!真实案例还原,男子文化传媒app被骗经过!! 都是假的啊:《盛初集团》被坑不可信不靠谱!别再执迷不悟!! 九牛一毛:《GTICH平台》软件无法出金!被骗切勿贪婪受骗!! 假的不靠谱:《抖梦助力app》被骗大曝光,不是真的受骗真相令人唏嘘! 让人后怕:《TESCO》数据修复不能提现!巨额亏损真相令人胆寒心惊!! 冬季防骗:《盛点科技》被骗无法提现,对此网约平台要提高警惕! 迷局不可信:《鑫荣科技》被骗无法出金不可信大曝光!已经亏惨了!! 肯定不可靠:《抖梦助力》系统违规不给出金!不能提现真相揭开!! 别上当阿:《鲸嘻app》不能提出!受骗不能出金背后真相让人不寒而栗! 必须谴责:《双星app》被骗情况曝光不能提现有猫腻,真相让人欲哭无泪! 软件受骗:《EasyLife》被骗真相大曝光!不可信无法提现提款震惊!! 解锁新騙局:《欣旺达APP》5分钟为你讲解文化传媒APP是不可信软件! 行骗软件:《易迅APP》平台不是真的!受骗真相惊天秘密揭晓! 到底真不真:《富盛娱乐传媒》不是真的啊!不靠谱不可信真相震惊!! 被骗后续:《诚旸资本》不是真的啊!操作失误不能提现不正规! 就是暗阱:《燚创传媒》新型骗术出炉不能提出!男子步步沦陷直到倾家荡产! 都来谴责:《喜鹊文化传媒》小心被骗!前面提出两次后出现操作错误不断投入!! 温馨的提示:《盛点科技》软件不要信!三单任务连续下去就是恶梦!! 彻底醒悟:《娟姐社区资源》被骗情况曝光不能提现有猫腻,真相让人欲哭无泪! 要提高警惕:《CBZZLAPP》被骗都是自己贪!不正规平台背后真相震惊!! 点击掉单:《博信科技》被骗不可信不靠谱!别掉坑里,小心!!