上海交大发布大模型双语编程评估基准CodeApex
快讯 零壹财经 零壹财经 2023-09-06 阅读:953
9月6日讯,上海交通大学APEX实验室推出了CodeApex,一个专注于评估LLMs的编程理解和代码生成能力的双语基准数据集。
在评估大语言模型的编程理解能力上,CodeApex设计了三种类型的选择题:概念理解、常识推理和多跳推理。此外,CodeApex也利用算法问题和相应的测试用例来评估LLMs的代码生成能力。CodeApex总共评估了14个大语言模型在代码任务上的能力。其中GPT3.5-turbo表现出最好的编程能力,在这两个任务上分别实现了大约50%和56%的精度。可以看到,大语言模型在编程任务上仍有很大的改进空间。(机器之心) 下一篇>金山办公与阿里云达成战略合作
相关文章
用户评论
所有评论
主编精选
more专题推荐
more
第四届中国零售金融发展峰会(共15篇)
资讯排行
- 48h
- 7天
-
首页
-
评论
-
回顶部
游客
自律公约