leyu.com-ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%
日期:2026-04-01

【LEYU科技动静】7月18日,Open AI首席履行官Sam Altman及四位研究员于直播中正式发布了ChatGPT Agent——一款通用型AI智能体。LEYU获悉,于HLE测试中,ChatGPT agent拿下了41.6%高分,并于数学FrontierMath基准上刷新了SOTA,碾压o4-mini及o3模子。

Sam Altman(最右)及他的团队Sam Altman(最右)和他的团队

ChatGPT Agent交融了Operator、Deep Research及ChatGPT三年夜模块上风,可以或许自立完成网页阅读、数据阐发、PPT建造等繁杂使命。

ChatGPT Agent于HLE测试中得到41.6%的高分,采用并行八路推理并拔取置信度最高谜底后可晋升到44.4%。于数学基准测试FrontierMath中,以27.4%的正确率刷新了纪录。

ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

于Excel编纂能力的SpreadsheetBench测试中,ChatGPT agent的体现一样远超现有模子。当得到直接编纂权限时,以45.5%的患上分显著逾越Excel Copilot的20.0%。此外,它还有于BrowseComp、WebArena等阅读评测里均刷新了SOTA。

ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

据悉,该产物已经面向Pro、Plus及Team用户开放。Pro用户可以立刻利用,Plus与Team用户将于很多天内陆续开通,Enterprise与Education版本将在数周后接入。

版权所有,未经许可不患上转载

-leyu.com
其他新闻
识别准确率96.5%,leyu.com乐鱼机器狗守护宁夏戈壁滩无人区风电站
leyu.com乐鱼隧道巡检机器狗首度交付新加坡电网
全球首只“机器藏羚羊”!leyu.com乐鱼科技机器狗深入可可西里腹地
社交媒体
Wechat Bilibili LinkedIn Youtube Twitter Douyin