首页 > 快讯 红杉中国正式开源AI基准测试xbench评测集 快讯 零壹财经 零壹财经 2025-06-18 阅读:3150 关键词:红杉中国人工智能 6月18日讯,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。(新浪财经) 上一篇>美国参议院通过稳定币法案 下一篇>谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已可用 相关文章 智能体正式“入职”:大模型成功渗透金融场景 中保科创(香港)搭建稳定币保险支付场景,亚洲首笔稳定币USDT佣金支付成功落地 蚂蚁消金首发20亿金融债,贷款余额3000+亿独占22%份额,不良率1.78% 2025鸿儒全球金融治理论坛“稳定币与RWA:变化中的全球支付与资管体系”成功举办 用户评论 游客 自律公约 登录后发布 所有评论 主编精选 more 智能体正式“入职”:大模型成功渗透金融场景 2025鸿儒全球金融治理论坛“稳定币与RWA:变化中的全球支付与资管体系”成功举办 网络小贷背后:增资、资产证券化与消金牌照成必争之地 “暴力催收”观察报告 智能体正在洞穿100个金融场景 专题推荐more 第四届中国零售金融发展峰会(共15篇) 02-06 郭田勇:零售金融发展,要发挥平台机构的作用 01-20 星图金融研究院副院长薛洪言:2023年消费信贷或迎来新起点 01-20 上海科技金融研究所执行副所长孟添:开放银行与嵌入式金融为数字普惠金融带来更大发展空间 资讯排行 48h 7天 智能体正式“入职”:大模型成功渗透金融场景 中保科创(香港)搭建稳定币保险支付场景,亚洲首笔稳定币USDT佣金支付成功落地 网络小贷背后:增资、资产证券化与消金牌照成必争之地 海尔消金因夸大营销、催收不当、收费质价不符等被罚235万元 2025鸿儒全球金融治理论坛“稳定币与RWA:变化中的全球支付与资管体系”成功举办 商汤发布「悟能」具身智能平台,让机器人“看懂、会动、能交” 蚂蚁数科正式发布金融推理大模型 首页 评论 回顶部
游客
自律公约