中文语言大模型哪家强？来自实测的发现

资讯徐艺玮 · 多算投教实验室 2023-10-25 阅读：4563

关键词：大模型 通义千问 文心一言 星火 科大讯飞

各家企业之所以如此重视大语言模型，是因为这将是未来各种应用智能化的基础。

作者 | 华东师范大学大数据学院徐艺玮来源 | 多算投教实验室

引言

随着人工智能技术的不断发展，中文语言大模型成为了人们关注的焦点。百度、阿里、腾讯和讯飞公司先后推出了自己的中文大语言模型，中国语言大模型进入了百团大战的时代。各家企业之所以如此重视大语言模型，是因为这将是未来各种应用智能化的基础。不夸张地说，得大模型者得天下。那么，站在应用开发者得角度来看，各家大模型的特点和优缺点分别是什么呢？本文将通过实测不同模型的表现，尝试为大家揭示这一问题的答案。

在中文语言大模型的研究和应用领域，百度、、腾讯等公司都是业内的佼佼者，而则是深耕语言文字识别多年。这些公司开发的大模型均具有极高的语言处理能力，并且在各自的业务领域中得到了广泛应用。因此，我们选取了阿里巴巴开发的灵积大模型（通义千问）、科大讯飞开发的星火大模型（星火）、百度开发的文心千帆大模型（文心一言）作为分析对象，并从主要功能，API使用,使用价格，回答效果四方面进行比较。灵积、星火、文心千帆大模型为各公司推出的多个模型的总称，每个大模型中都包含了不同功能的小模型。其中通义千问、星火、文心一言为灵积、星火、文心千帆大模型中最广为人知的，有代表性与特色的语言模型。

研究发现

1.主要功能方面，三个大模型的偏重有所不同。下面简单介绍一下三家大模型中包含的模型种类以及大模型的主要功能，应用场景。

在阿里巴巴公司开发的灵积大模型中，类似chatgpt的语言模型居多，同时包含了语音合成模型和文生图模型。灵积大模型中每个语言模型都经过了不同程度的微调和优化，可以根据具体的需要和偏好进行选择。例如针对行业垂直领域，灵积大模型中包含了智海三乐教育大模型和ChatGLM开源双语对话模型，可以更贴合具体场景使用。除此之外，灵积大模型还包含了，同时支持自训练模型和词向量的嵌入（emmed）。总的来说，灵积大模型偏向于文本信息的处理，内置模型丰富，大部分模型输入输出均为文本类型，更适合有针对性的，问答式对话的应用场景。

科大讯飞的星火大模型则是脱离了语言模型赛道，将重心放在了语音识别模型、图像识别模型上。星火大模型中的语言模型只有星火语言模型，但有十几种语音识别模型、图像识别模型。这些模型可以完成智能问答，语音识别，语音合成，语音拓展，自然语言处理以及人脸识别，文字识别，图像识别的任务。并且星火大模型中的各个模型在Web,Android,ios,LINUX,Windows,Java等各个环境中均可配置，使用场景更广。遗憾的是，星火大模型不支持模型定制以及词向量的嵌入（emmed）。总的来说，星火大模型偏向于全环境的语音信息处理和图像信息识别，在对话场景中选择有限，但在制作，自动驾驶，文件扫描等场景都可以发挥用处。

百度推出的文心千帆大模型中，只包含了语言模型。和灵积、星火大模型不同的是、文心千帆更像是一个语言模型制造机，从基础数据开始，带你训练一个自己的大模型。如果不想要自己训练模型，文心千帆也提供了训练好的二十余种语言模型来让大家使用。如果自己训练模型，首先将数据上传标注，处理，通过调优迭代和RLHF训练，持续推动模型向实际场景聚焦，提升模型精准度，之后在场景数据下评估模型效果、持续优化模型推理性能，最终训练出自己的语言模型接入应用。总的来说，文心千帆大模型针对文本对话场景，如果有大量数据的支持以及较强的开发水平，可以训练出更加灵活的语言模型，更适合应用于有难度的，有精确需求的场景。

灵积大模型内置模型图文心千帆大模型内置模型图

2.在API使用方面，目前三个大模型都需要申请试用之后才可以调取API。产品使用文档链接如下：

灵积大模型：https://help.aliyun.com/zh/dashscope/api-reference

星火认知大模型：https://www.xfyun.cn/doc/spark/embedding_api.html

文心千帆大模型：https://cloud.baidu.com/doc/WENXINWORKSHOP/index.html

对比三者的文档中心

灵积大模型星火大模型文心千帆大模型

可以看出，灵积大模型对开发人员较为友好，跟着帮助文档一步步做下来就可以成功调用模型。星火大模型的API在星火认知大模型的开发能力下的WEB文档中。文心千帆大模型的操作更为复杂，需要先创建应用，获取AppID、API Key、Secret Key后调用API。

3.使用价格

使用价格方面，三个大模型都按照s收费。由于不同语言模型价格差异较大，将三个大模型中最具有名的通义千问、星火。文心一言语言模型的tokens价格放在下文，供大家对比。其中通义千问、星火语言模型最近都有免费的试用额度。文心一言在认证后也可以领20元的代金券以供试用。

通义千问tokens价格

星火tokens价格

文心一言tokens价格表

4.回答效果方面，我们使用三个大模型中最有代表性的通义千问、星火、文心一言语言模型。从文字表达，数学问题，编程语言三个方面进行考察。使用相同的prompt，来看看星火，通义千问，文心一言分别给出了什么样的回答。

文字表达方面，我们让三个语言模型写出一篇小红书文字稿。

通义千问回答

星火回答

文心一言回答

对比下来，不考虑给出的穿搭建议是否真的好看的话，三个语言模型的回答总体都还不错，语言风格整体都很小红书。其中通义千问的回答最佳，emoji位置合理，内容丰富，加一点图片基本可以直接使用；星火自称为小编，不是很符合小红书的风格。不过可以通过优化prompt进行解决。文心一言的回答最为详细，给出了八条不同的搭配，不过每一条搭配后配的文字句式单一，重复词语较多，看多了容易审美疲劳。

数学问题方面，我们让三个模型解同一道鸡兔同笼题目，来看看它们的回答。