上海交大发布大模型双语编程评估基准CodeApex

快讯零壹财经零壹财经 2023-09-06 阅读：750

关键词：评估 上海交大 发布 大模型 编程

9月6日讯，上海交通大学APEX实验室推出了CodeApex，一个专注于评估LLMs的编程理解和代码生成能力的双语基准数据集。

在评估大语言模型的编程理解能力上，CodeApex设计了三种类型的选择题：概念理解、常识推理和多跳推理。此外，CodeApex也利用算法问题和相应的测试用例来评估LLMs的代码生成能力。CodeApex总共评估了14个大语言模型在代码任务上的能力。其中GPT3.5-turbo表现出最好的编程能力，在这两个任务上分别实现了大约50%和56%的精度。可以看到，大语言模型在编程任务上仍有很大的改进空间。（机器之心）

上一篇>天工大模型登顶多模态榜单，解决幻觉、跨语言两大难题

下一篇>金山办公与阿里云达成战略合作

用户评论

游客: 自律公约

所有评论

主编精选

专题推荐

第四届中国零售金融发展峰会(共15篇)

资讯排行

48h
7天

首页

回顶部

机构

资讯

博客

零壹财经

财星

零壹租赁智库

零售金融观察

数字化讲习所

01元宇宙

零壹智库

上海交大发布大模型双语编程评估基准CodeApex

快讯零壹财经零壹财经 2023-09-06 阅读：750

关键词：评估 上海交大 发布 大模型 编程

相关文章

用户评论

所有评论

主编精选

专题推荐

第四届中国零售金融发展峰会(共15篇)

资讯排行

上海交大发布大模型双语编程评估基准CodeApex

快讯 零壹财经 零壹财经 2023-09-06 阅读：750

相关文章

用户评论

所有评论

主编精选

专题推荐

第四届中国零售金融发展峰会(共15篇)

资讯排行

快讯零壹财经零壹财经 2023-09-06 阅读：750