阿里云通义开源首个推理步骤评估标准

快讯零壹财经零壹财经 2025-01-16 阅读：2510

关键词：阿里通义 人工智能

1月16日讯，通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型；在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。（新浪财经）

上一篇>用户被异地刷脸支付成功，腾讯：已先行全额补偿

下一篇>国产视频大模型Vidu 2.0发布，1秒低至“4分钱”