首页 > 快讯 红杉中国正式开源AI基准测试xbench评测集 快讯 零壹财经 零壹财经 2025-06-18 阅读:280 关键词:红杉中国人工智能 6月18日讯,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。(新浪财经) 上一篇>美国参议院通过稳定币法案 下一篇>谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已可用 相关文章 谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已可用 央行行长潘功胜:新型技术驱动数字货币稳定币发展 央行行长潘功胜:设立数字人民币国际运营中心 腾讯元宝上线 AI 编程模式:支持边修改代码边实时预览 用户评论 游客 自律公约 登录后发布 所有评论 主编精选 more 中国数字经济发展指数报告(2025年版) 消金合作名单披露迷局:990条数据背后的行业现状与问题 上市银行新生成不良率排行榜:最低0.23%,最高超2%,半数指标“变坏” 阿里系消金布局再深化:流量APP全员下场,蚂蚁消金重回增长 消金的新红利时代 专题推荐more 第四届中国零售金融发展峰会(共15篇) 02-06 郭田勇:零售金融发展,要发挥平台机构的作用 01-20 星图金融研究院副院长薛洪言:2023年消费信贷或迎来新起点 01-20 上海科技金融研究所执行副所长孟添:开放银行与嵌入式金融为数字普惠金融带来更大发展空间 资讯排行 48h 7天 中国数字经济发展指数报告(2025年版) 蚂蚁、协鑫揭秘RWA破局之路 沃尔玛、亚马逊正考虑发行自己的稳定币 腾讯开源混元3D 2.1大模型 湖州银行首笔数字人民币绿色贷款落地 中办、国办:探索央行数字货币在跨境领域的适用性 中国数字经济发展指数报告(2025年版) 蚂蚁、协鑫揭秘RWA破局之路 360发布“超级搜索智能体”,周鸿祎:AI“下半场”主角 微信支付香港已覆盖超过15万家本地商户 首页 评论 回顶部
游客
自律公约