首页 > 快讯

OpenAI开源PaperBench,重塑顶级AI Agent评测

快讯 零壹财经 零壹财经 2025-04-03 阅读:2164

关键词:OpenAI人工智能


4月3日讯,凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。根据OpenAI公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习专业博士。但在辅助学习、了解科研内容方面很有帮助。(AIGC开放社区)

上一篇>上海:将工业品跨境电商纳入上海市“5+6”垂直领域人工智能重大示范场景和模型训练

下一篇>阿里云:大模型服务平台百炼部分历史模型将于7月2日下线



相关文章


用户评论

游客

自律公约

所有评论

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 224ms