首页 > 资讯

中文语言大模型哪家强?来自实测的发现

资讯 徐艺玮 · 多算投教实验室 2023-10-25 阅读:4563

关键词:大模型通义千问文心一言星火科大讯飞

各家企业之所以如此重视大语言模型,是因为这将是未来各种应用智能化的基础。

作者 | 华东师范大学大数据学院 徐艺玮 来源 | 多算投教实验室
 
引言
 
随着人工智能技术的不断发展,中文语言大模型成为了人们关注的焦点。百度、阿里、腾讯和讯飞公司先后推出了自己的中文大语言模型,中国语言大模型进入了百团大战的时代。各家企业之所以如此重视大语言模型,是因为这将是未来各种应用智能化的基础。不夸张地说,得大模型者得天下。那么,站在应用开发者得角度来看,各家大模型的特点和优缺点分别是什么呢?本文将通过实测不同模型的表现,尝试为大家揭示这一问题的答案。

在中文语言大模型的研究和应用领域,百度、阿里巴巴、腾讯等公司都是业内的佼佼者,而科大讯飞则是深耕语言文字识别多年。这些公司开发的大模型均具有极高的语言处理能力,并且在各自的业务领域中得到了广泛应用。因此,我们选取了阿里巴巴开发的灵积大模型(通义千问)、科大讯飞开发的星火大模型(星火)、百度开发的文心千帆大模型(文心一言)作为分析对象,并从主要功能,API使用,使用价格,回答效果四方面进行比较。灵积、星火、文心千帆大模型为各公司推出的多个模型的总称,每个大模型中都包含了不同功能的小模型。其中通义千问、星火、文心一言为灵积、星火、文心千帆大模型中最广为人知的,有代表性与特色的语言模型。
 
研究发现
 
1.主要功能方面,三个大模型的偏重有所不同。下面简单介绍一下三家大模型中包含的模型种类以及大模型的主要功能,应用场景。
 
在阿里巴巴公司开发的灵积大模型中,类似chatgpt的语言模型居多,同时包含了语音合成模型和文生图模型。灵积大模型中每个语言模型都经过了不同程度的微调和优化,可以根据具体的需要和偏好进行选择。例如针对行业垂直领域,灵积大模型中包含了智海三乐教育大模型和ChatGLM开源双语对话模型,可以更贴合具体场景使用。除此之外,灵积大模型还包含了,同时支持自训练模型和词向量的嵌入(emmed)。总的来说,灵积大模型偏向于文本信息的处理,内置模型丰富,大部分模型输入输出均为文本类型,更适合有针对性的,问答式对话的应用场景。

科大讯飞的星火大模型则是脱离了语言模型赛道,将重心放在了语音识别模型、图像识别模型上。星火大模型中的语言模型只有星火语言模型,但有十几种语音识别模型、图像识别模型。这些模型可以完成智能问答,语音识别,语音合成,语音拓展,自然语言处理以及人脸识别,文字识别,图像识别的任务。并且星火大模型中的各个模型在Web,Android,ios,LINUX,Windows,Java等各个环境中均可配置,使用场景更广。遗憾的是,星火大模型不支持模型定制以及词向量的嵌入(emmed)。总的来说,星火大模型偏向于全环境的语音信息处理和图像信息识别,在对话场景中选择有限,但在数字人制作,自动驾驶,文件扫描等场景都可以发挥用处。

百度推出的文心千帆大模型中,只包含了语言模型。和灵积、星火大模型不同的是、文心千帆更像是一个语言模型制造机,从基础数据开始,带你训练一个自己的大模型。如果不想要自己训练模型,文心千帆也提供了训练好的二十余种语言模型来让大家使用。如果自己训练模型,首先将数据上传标注,处理,通过调优迭代和RLHF训练,持续推动模型向实际场景聚焦,提升模型精准度,之后在场景数据下评估模型效果、持续优化模型推理性能,最终训练出自己的语言模型接入应用。总的来说,文心千帆大模型针对文本对话场景,如果有大量数据的支持以及较强的开发水平,可以训练出更加灵活的语言模型,更适合应用于有难度的,有精确需求的场景。
 
                   灵积大模型内置模型图                                             文心千帆大模型内置模型图
 
2.在API使用方面,目前三个大模型都需要申请试用之后才可以调取API。产品使用文档链接如下:

灵积大模型:https://help.aliyun.com/zh/dashscope/api-reference

星火认知大模型:https://www.xfyun.cn/doc/spark/embedding_api.html

文心千帆大模型:https://cloud.baidu.com/doc/WENXINWORKSHOP/index.html

对比三者的文档中心
 
灵积大模型                                 星火大模型                                   文心千帆大模型
 
可以看出,灵积大模型对开发人员较为友好,跟着帮助文档一步步做下来就可以成功调用模型。星火大模型的API在星火认知大模型的开发能力下的WEB文档中。文心千帆大模型的操作更为复杂,需要先创建应用,获取AppID、API Key、Secret Key后调用API。

3.使用价格

使用价格方面,三个大模型都按照tokens收费。由于不同语言模型价格差异较大,将三个大模型中最具有名的通义千问、星火。文心一言语言模型的tokens价格放在下文,供大家对比。其中通义千问、星火语言模型最近都有免费的试用额度。文心一言在认证后也可以领20元的代金券以供试用。

 
通义千问tokens价格
 


星火tokens价格

文心一言tokens价格表
 
4.回答效果方面,我们使用三个大模型中最有代表性的通义千问、星火、文心一言语言模型。从文字表达,数学问题,编程语言三个方面进行考察。使用相同的prompt,来看看星火,通义千问,文心一言分别给出了什么样的回答。
 
文字表达方面,我们让三个语言模型写出一篇小红书文字稿。
 
通义千问回答
 

星火回答
 


文心一言回答
 
对比下来,不考虑给出的穿搭建议是否真的好看的话,三个语言模型的回答总体都还不错,语言风格整体都很小红书。其中通义千问的回答最佳,emoji位置合理,内容丰富,加一点图片基本可以直接使用;星火自称为小编,不是很符合小红书的风格。不过可以通过优化prompt进行解决。文心一言的回答最为详细,给出了八条不同的搭配,不过每一条搭配后配的文字句式单一,重复词语较多,看多了容易审美疲劳。

数学问题方面,我们让三个模型解同一道鸡兔同笼题目,来看看它们的回答。
 

通义千问回答
 

星火回答
 

文心一言回答
 
可以看到,三个模型都给出了正确的答案,其中通义千问的解答过程非常详细,解方程的每一步都给出来了。星火存在跳步现象,没有给出x=16-y的理由。文心一言直接给出了方程组的答案。
 
编程语言方面,我们让三个模型用python画一个五角星,来看看他们的回答。
 

通义千问回答
 

星火回答
 

文心一言代码
 
在编写代码任务中,通义千问没有给出代码,星火和文心一言都给出了正确的代码。其中星火给出了一个函数,代码复用性更好。文心一言的注释更加详细,代码可读性更强。
 
结论
 
综合以上测试结果,三家大模型都有自身的优势和特点。追求简单易上手,主要用于文本对话场景,选择灵积大模型更加合适。面对语音,图像信息的处理需求,选择星火大模型更加合适;如果有大量自有数据想要自建模型,或者微调模型来让其有更加优秀的表现,选择文心千帆大模型则更适合。
 
大模型对比表

 
 
语言模型对比表
我们可以不同的应用场景需要根据具体需求来选择适合的大模型。同时,我们也期待未来有更多的优秀的大模型涌现,推动人工智能技术在语言处理领域的不断发展。


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

上一篇>字节跳动将逐步放弃PICO?;小米金融在天津成立商业保理公司;天猫精灵大模型上线|零壹日报

下一篇>消费金融将迎新规!蚂蚁集团旗下语雀大规模故障;字节元宇宙业务或转向,近半员工离开 | 零壹日报



相关文章


用户评论

游客

自律公约

所有评论

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 202ms