大模型的未来，从人工智能三个里程碑说起

资讯朱嘉明 · 数字资产研究CIDA 2023-07-11 阅读：8897

关键词：人工智能 大模型 文心一言 盘古 AI

大模型将乐高化，推动人类社会、物理空间和信息空间日益紧密的结合。

编者按：

本文为横琴数链数字金融研究院学术与技术委员会主席朱嘉明教授的文章——《人工智能大模型——当代历史的标志性事件及其意义》，刊登于香港中文大学中国文化研究所刊物《二十一世纪评论》2023年6月号。

朱嘉明认为，大模型是人工智能历史的分水岭，甚至是工业革命以来人类文明史的分水岭：在这之前，人们更多关注和讨论的是的“机器人三定律”；现在则进入如何理解大模型、如何预知人工智能的危险拐点。

在人工智能2.0时代，大模型分工愈来愈明确，日益增多的大模型，特别是开源大模型会实现不同的组合。支援大模型的数据不仅要求高品质，而且必须开源，任何与开源大模型的竞争必然注定失败。

可以预见的是，大模型规模的扩大存在着极限：一方面是物理性限制，一方面是大模型存在收益递减的拐点。所以，大模型设计或架构需考虑如何引入控制论，以适应人类回馈。

“大模型将乐高（Lego）化，构成大模型集群，不仅推动人类社会、物理空间和信息空间日益紧密融合，而且正在生成一个大模型主导的世界”。

来源 | 《二十一世纪评论》2023年6月号
作者 | 朱嘉明

人工智能大模型
——当代历史的标志性事件及其意义

标题封面
来源：《二十一世纪评论》

此项研究在这样的猜想基础上进行，即学习以及智能的任何其他特性的每一方面在原则上都能被精确描述，以致可使一台机器来模拟它。我们会尝试寻求如何让机器使用语言，形成抽象和概念，解决现在留待人类解决的问题，并提升自己。

——1956年达特茅斯会议人工智能（Al）定义[1]

2020至2022年，在新冠疫情肆虐全球的阴霾日子里，人工智能（Al）创新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起：2020年4月发布神经网络Jukebox[2]；5月发布语言模型GPT-3[3]；6月开放人工智能应用程式介面（Application Programming Interface，API）；2021年1月发布连接文本和图像的神经网络CLIP[4]；同月发布从文本创建图像的神经网络DALL·E[5]，2022年11月正式推出了对话互动式的聊天机器人程式ChatGPT[6]。相比于GPT-3，ChatGPT引入了基于人类回馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）技术以及奖励机制[7]。

GPT-3的发布是人类科技史上的里程碑事件，在短短几个月席卷全球，速度超过人类最狂野的想象。GPT-3证明了一个具有高水平复杂结构和大量参数的人工智能大模型（foundation model，又称“基础模型”）可以实现深度学习（deep learning）。

此后，大模型概念得到前所未有的关注和讨论。但是，关于“大模型”的定义，对其内涵的理解和诠释却莫衷一是，“横看成岭侧成峰，远近高低各不同”。

尽管如此，并不妨碍人们形成了关于大模型的基本共识：大模型是大语言模型（Large Language Model，LLM）也是多模态模型（multimodal model）。GPT是大模型的一种形态，G代表生成性的（generative），p代表经过预训练（pre-trained），T代表变换器（transformer）[8]。它引发了人工智能生成内容（Artificial Intelligence Generated Content，AIGC）技术的：质变。

大模型是人工智能赖以生存和发展的基础。现在，与其说人类开始进入人工智能时代，不如说人类进入的是大模型时代。我们不仅目睹，也身在其中体验了生成式大模型如何开始生成一个全新时代。

本文通过七个部分，分别说明大模型的定义、人工智能的历史、大模型的基本特征、Transformer结构、GPU和能源、知识革命、“人的工具化”及大模型在其中的作用，有助于进一步解读大模型对于人类科技发展的重要意涵

01
何谓大模型?

人工智能的模型，与通常的模型一样，是以数学和统计学作为演算法基础的，可以用来描述一个系统或者一个数据集。在机器学习（machine learning）中，模型是核心概念。

模型通常是一个函数或者一组函数，以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的本质就是对这个/组函数映射的描述和抽象，通过对模型进行训练和优化，能够得到更加准确和有效的函数映射。

模型的目的是为了从数据中找出一些规律和模式，达到预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量。一个模型的参数数量愈多，通常意味着该模型可以处理更复杂、更丰富的信息，具备更高的准确性和表现力。

大模型一般用于解决复杂的自然语言处理（Natural Language Processing，NLP）、电脑视觉和语音辨识等任务。这些任务需要处理大量的输入数据，并从中提取复杂的特征和模式。通过使用大模型，深度学习演算法就能更好地处理这些任务，提高模型的准确性和性能。

大模型的“大”，是指模型参数至少达到1亿以上。但是这个标准一直在升级，目前很可能已经有了万亿参数以上的模型。GPT-3大约的参数规模是1，750亿。

除了大模型之外，还有所谓的“超大模型”。超大模型是比大模型更大、更复杂的人工神经网络（Artificial Neural Network，ANN）模型，通常拥万亿到数千万亿参数。超大模型一般被用于解决更为复杂的任务，如自然语言处理中的问答和机器翻译、电脑视觉中的目标检测和图像生成等。

这些任务需要处理极其复杂的输入数据和高维度的特征，超大模型可以在这些数据中提取出更深层次的特征和模式，提高模型的准确性和性能。所以，超大模型的训练和调整需要极其巨大的计算资源和大量数据、更加复杂的演算法和技术、大规模的投入和协作。

大模型和超大模型的主要区别在于模型参数数量的多寡、计算资源的需求和性能表现。伴随大模型参数规模的膨胀，大模型和超大模型的界限正在消失。现在包括GPT-4在内的代表性大模型，其实就是原本的超大模型。或者说，原本的超大模型，就是现在的大模型。

如前所述，大模型可以定义为大语言模型，即具有大规模参数和复杂网络结构的语言模型。与传统语言模型（如生成性模型、分析性模型、辨识性模型）不同[9]，大语言模型通过在大规模语料库上进行训练来学习语言的统计性规律，在训练时通常通过大量的文本数据进行自监督学习[10]，从而能够自动学习到语法、句法、语义等多层次的语言规律。

如果从人工智能的生成角度定义大模型，与传统的机器学习演算法不同，生成式大模型可以根据文本提示生成代码，还可以解释代码，甚至在某些情况下调试代码。

在这样的过程中，不仅实现文本、图像、音讯、视频的生成，构建多模态，而且还在更为广泛的领域生成新的设计、新的知识和思想，甚至广义的艺术和科学的再创造。

近几年，比较有影响的大模型主要来自Google、Meta和OpenAI。除了OpenA1的GPT之外，2018至2023年Google先后发布对话程式语言模型LaMDA、BERT和PaLM-E[11]。2023年，Facebook的母公司Meta推出大语模型LLaMA，以及在MetaAI博客上免费公开大语言模型OPT-175B[12]。

在中国，大模型主要代表是百度的“文心一言”和的“盘古”。这些模型的共同特征是：需要在大规模数据集上进行训练，基于大量的计算资源进行优化和调整。

因为大模型的出现和发展所显示的涌现性、扩展性和复合性，长期以来人们讨论的所谓“弱人工智能”、“强人工智能”和“超人工智能”的界限不复存在，这样划分的意义也自然消失[13]。

02
大模型是人工智能历史的突变和涌现

如果从1956年美国达特茅斯学院（Dartmouth College）的人工智能会议算起，还有三年，人工智能历史就踏入七十年。该会议引申出人工智能三个基本派别：

一、符号学派（Symbolism），又称为逻辑主义、心理学派或电脑学派。该学派主张通过电脑符号操作来类比人的认知过程和大脑抽象逻辑思维，实现人工智能。符号学派主要集中在人类推理、规划、知识表示等高级智能领域。

二、联结学派（Connectionism），又称为仿生学派或生理学派。该学派强调对人类大脑的直接类比，认为神经网络和神经网络间的连接机制与学习演算法能够产生人工智能。学习和训练是需要有内容的，数据就是机器学习、训练的内容。联结学派的技术性突破包括感知机（下详）、人工神经网络、深度学习。

三、行为学派（Actionism），思想来源是进化论和控制论。其原理为控制论以及感知-动作型控制系统。该学派认为行为是个体用于适应环境变化的各种身体反应的组合，它的理论目标在于预见和控制行为[14]。

比较上述三个人工智能派别：符号学派依据的是抽象思维，注重数学可解释性；联结学派则是形象思维，偏向于仿人脑模型；行为学派是感知思维，倾向身体和行为模拟。从共同性方面来说，这三个派别都以演算法、算力和数据作为核心要素。但是在相当长的时间里，符号学派主张的基于推理和逻辑的人工智能路线处于主流地位。不过，电脑只能处理符号，不可能具有人类最为复杂的感知。二十世纪80年代末，符号学派开始走向式微。之后的人工智能编年史，有三个重要的里程碑。

第一个里程碑：机器学习。机器学习理论的提出，可以追溯到图灵（Alan Turing）写于1950年的一篇论文《电脑机器与智慧》（“Computing Machinery and Intelligence”）和图灵测试（Turing test）[15]。1952年，在国际商业机器公司（IBM）工作的塞缪尔（Arthur L.Samuel）开发了一个西洋棋的程式。该程式能够通过棋子的位置学习一个隐式模型，为下一步棋提供比较好的走法。塞缪尔用这个程式驳倒了机器无法超越书面代码、并像人类一样学习的论断。他创造并定义了“机器学习”[16]。

机器学习是一个让电脑不用显示程式设计就能获得能力的研究领域。1980年，美国卡内基梅隆大学（Carnegie Mellon University）召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。此后，机器学习开始得到大量应用。

1986年，三十多位人工智能专家共同撰写的《机器学习：一项人工智能方案》（Machine Learning:An Artificial Intelligence Approach）文集第二卷出版[17]，显示出机器学习突飞猛进的发展趋势[18]。

二十世纪80年代中叶是机器学习的最新阶段，机器学习已成为新的学科，综合应用了心理学、生物学、神经生理学、数学、自动化和电脑科学等，形成理论基础。

1995年，瓦普尼克（Vladimir N.Vapnik）和科茨（Corinna Cortes）提出的支持向量机（Support Vector Machine，SVM，又称“支持向量网络”），实现机器学习领域最重要的突破，具有非常强的理论论证和实证结果。

机器学习有别于人类学习，二者的应用范围和知识结构有所不同：机器学习是基于对数据和规则的处理和推理，主要应用于数据分析、模式识别、自然语言处理等领域；而人类学习是一种有目的、有意识、逐步积累的过程。总之，机器学习是一种基于演算法和模型的自动化过程，并分为监督学习和自监督学习两种。

第二个里程碑：深度学习。深度学习是机器学习的一个分支。所谓“深度”是指神经网络中隐藏层（位于输入和输出之间的层）的数量。传统的神经网络只包含两至三个隐藏层，而深度神经网络可以有多达150个隐藏层，提供了大规模的学习能力。随着大数据和深度学习爆发并得以高速发展，最终成就了深度学习理论和实践。

2006年，辛顿（Geoffrey E.Hinton）正式提出“深度置信网络”（Deep Belief Nets/Deep Belief Network，DBN）概念[19]，那一年成为了“深度学习元年”。在辛顿深度学习理论的背后，是坚信如果不了解大脑，就永远无法理解人类的认识。人脑必须用自然语言进行沟通，而只有1.5公斤重的大脑，大约有860亿个神经元（通常称为“灰质”）与数万亿个突触相连。人们可以把神经元看作是接收数据的中央处理器（Central Processing Unit，CPU）。

所谓“深度学习”可以伴随着突触的增强或减弱而发生，即在一个拥有大量神经元的大型神经网络中，计算节点和它们之间的连接，仅通过改变连接的强度，从数据中学习。辛顿认为，实现人工智能的进步需要通过生物学途径，或者通过神经网络途径替代模拟硬件途径，形成基于100万亿个神经元之间的连接变化的深度学习。

深度学习主要涉及三类方法：

一、基于卷积运算的神经网络系统，卷积神经网络（Convolutional Neural Network，CNN）是一类包含卷积运算且具有深度结构的前馈神经网络，是深度学习的代表演算法之一。二、基于多层神经元的自编码神经网络，包括自编码（auto encoder）和近年来受到广泛关注的稀疏编码（sparse coding）两类、以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络。通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用简单模型即可完成复杂的分类等学习任务。

深度学习是建立在人工神经网络理论和机器学习理论上的科学，它使用建立在复杂的网络结构上的多处理层，结合非线性转换方法，对复杂的数据模型进行抽象，得以识别图像、声音和文本。

在深度学习的历史上，卷积神经网络和循环神经网络（Recurrent Neural Network，RNN）曾经是两种经典模型。在循环神经网络中，节点之间的连接可以形成一个循环，允许一些节点的输出影响到同一节点的后续输入，因此能够表现出时间上的动态行为。

2012年，辛顿和克里泽夫斯基（Alex Krizhevsky）设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别和分类，成为新一轮人工智能发展的起点。这类系统可以处理大量数据，发现人类通常无法发现的关系和模式。2016年人工智能机器人AlphaGo战胜韩国职业围棋棋手李世石，这是深度学习的经典范例。

第三个里程碑：人工智能生成内容大模型。2018年10月，Google发布BERT模型是代表性事件。该模型是一种双向的基于Transformer的自监督语言模型，通过大规模预训练无标注数据来学习通用的语言表示，从而能够在多种下游任务，如专名识别、词性标记和问题回答中进行微调。利用大型文本语料库BookCorpus和英文维基百科里纯文字的部分，无须标注数据，用设计的两个自监督任务来进行训练，训练完成的模型通过微调在十一个下游任务上实现最佳性能

因为BERT模型，掀起了预训练模型的研究热潮，从2018年开始大模型迅速流行，预训练语言模型（Pre-trained Language Model，PLM）及其“预训练一微调”方法已成为自然语言处理任务的主流范式。大模型利用大规模无标注数据通过自监督学习进行预训练，再利用下游任务的有标注数据进行自监督学习以微调模型参数，实现下游任务的适配[20]。

如前所述，大模型的训练需要大量的计算资源和数据，OpenAI使用了数万台CPU和图形处理器（Graphics Processing Unit，GPU），并利用了多种技术，如自监督学习和增量训练等，对模型进行了优化和调整。2018至2023年，OpenAI实现大模型从GPT-1到GPT-4的五次迭代，同时开放了应用程式介面，使得开发者可以利用大模型进行自然语言处理的应用开发。

总之，大模型是基于包括数学、统计学、电脑科学、物理学、工程学、神经学、语言学、哲学、人工智能学融合基础上的一次突变，并导致了一种“涌现”（emergence）。大模型是一种革命。在模型尚未达到某个临界点之前，根本无法解决问题，性能也不会比随机好。但是，当大模型突破某个临界点之后，性能会发生愈来愈明显的改善，形成爆发性的涌现能力。

如论者所言：“许多新的能力在中小模型上线性放大规模都得不到线性的增长，模型规模必须要指数级增长超过某个临界点，新技能才会突飞猛进。”[21]

更为重要的是，大模型赋予人工智能以思维能力——一种与人类近似，又很不相同的思维能力。前述AlphaGo战胜李世石的世纪级围棋大赛，证明了人工智能思维的优势。

03
大模型的基本特征

大模型的基本特征可以总结为：以人工神经网络作为基础；为神经网络提供更好的预训练方法并促进规模化，能显著降低人工智能工程化门槛；具有理解自然语言的能力和模式；已经形成“思维链”；需要向量数据库的支援；具有不断成长的泛化功能，并且被植入了控制论的基于人类回馈的强化学习机制。

大模型以人工神经网络作为基础。

1943年，心理学家麦卡洛克（Warren S.McCulloch）和数理逻辑学家皮茨（Walter H.Pitts，Jr.）建立了第一个神经网络模型，即M-P模型（又称“麦卡洛克-皮茨模型”或“MCP模型”）。该模型是对生物神经元结构的一种模仿，将神经元的树突、细胞体等接收信号定义为输入值x，突触发出的信号定义为输出值y。M-P模型奠定了支援逻辑运算的神经网络基础。

1958年，电脑专家罗森布拉特（Frank Rosenblatt）基于M-P模型发明了包括输入层、输出层和隐藏层的感知机（perceptron）。神经网络的隐藏层最能代表输入数据类型特征（图1）。从本质上讲，这是第一台使用模拟人类思维过程的神经网络的新型电脑。

以OpenAI为代表的团队，为了让具有多层表示的神经网络学会复杂事物，创造了一个初始化网络的方法，即预训练。实际上，生成式大模型为神经网络提供了更好的预训练方法。

现在的大模型都是以人工神经网络作为基础的演算法数学模型，其基本原理依然是罗森布拉特的感知机。这种人工智能网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

图1神经网络的层级关系：由输入到输出
来源：笔者改制自Moonzarin Reza,"Galaxy Morphology Classification Using Automated Machine Learning",Astronomy and Computing,vol.37(October 2021),https://doi.org/10.1016/j.ascom.2021.100492

大模型生成内容的前提是大规模的文本数据输入，并在海量的通用数据上进行预训练。通过预训练不断调整和优化模型参数，使得模型的预测结果尽可能接近实际结果。预训练中使用的大量文本数据包括维基百科、网页文本、书籍、新闻文章等，用于训练模型的语言模型部分。

此外，还可以根据应用场景和需求，调用其他外部数据资源，包括知识库、情感词典、关键词提取、实体识别等。在预训练的过程中，大模型不是依赖于人为编写的语法规则或句法规则，而是通过学习到的语言模式和统计性规律，以生成更加符合特定需求和目标的文本输出。

预训练促进了规模化。所谓的“规模化”是指用于训练模型的大量计算，最终转化为规模愈来愈大的模型，具有愈来愈多的参数。在预训练过程中，大模型形成理解上下文的学习能力。或者说，伴随上下文学习的出现，人们可以直接使用预训练模型。大模型通过大量语料库训练，根据输入文本和上下文生成合适的文本输出，学习词汇、句法结构、语法规则等多层次的语言知识；通过对大量样本进行学习，更多的计算资源的投入（包括正确和错误的文本样本），捕捉到语法和句法的统计性规律，形成一个词或字元的概率的预测能力，进而根据不同样本的预测错误程度调整参数，处理复杂的语境，最终逐渐优化生成的文本。

例如，ChatGPT会根据之前与使用者交互的上下文和当前的生成状态，选择最有可能的下一个词或短语。

“预训练一微调”方法能显著降低人工智能工程化门槛。预训练模型在的学习训练后具有良好的泛化性（下详），使得细分场景的应用厂商能够基于大模型，通过零样本、小样本学习来获得显著的效果。

因此，人工智能有望构建成统一的智慧底座，以赋能各行各业。生成式大模型不会止步于简单的内容生成，而会逐步达到更高的人工智能，得以预测、决策、探索。针对大量数据训练出来的预训练模型，后期采用业务相关数据进一步训练原先模型的相关部分，给出额外的指令或者标注数据集来提升模型的性能，通过微调从而得到准确度更高的模型。

大模型具有理解自然语言的能力和模式。自然语言如汉语、英语及其文字，具有复杂性和多样性，且伴随文化演变而进化；通过表达含义，实现人类沟通和交流，推动人类思维发展。

对自然语言的理解，首先要理解文本的特征。在大模型研究的早期阶段，主要集中在自然语言处理领域，形成从简单的文本问答、文本创作到符号式语言的推理能力。之后大模型发生程式设计语言的变化，有助于更多人直接参与大模型用于问答的自然语言交互和程式设计模式，经过形式极简的文本输入，利用自然语言表达的丰富性，形成自然语言与模型的互动。

上述的BERT、GPT等一系列代表性模型，不同于基于语法规则、句法规则的传统语言模型；这些大语言模型基于统计语言学的思想，在大量文本数据上进行自监督学习，利用自然语言中的统计性规律（涉及原理[Bayes theorem]和马尔可夫链[Markov chain]等数学工具，以及N元[n-gram]语言模型[22]），通过对大量语法和句法样本学习，捕捉到相关规则并进行推断，对各种不同形式的语言表达具有一定的容忍性、适应性和灵活性，从而生成具有语法和语义合理性的文本。

大模型已经形成“思维链”（Chain-of-Thought，CoT）。思维链是重要的微调技术手段，其本质是一个多步推理的过程。通过让大语言模型将一个问题拆解为多个步骤，一步一步分析，逐步得出正确答案。

我们还可以这样理解：思维链相当于大模型中的数据，人工智能以思维链为数据，然后再进行微调和回馈，从而形成人工智能能力。在电脑语言中，有所谓“”（Fourth Normal Form，4NF）概念，有助于理解思维链的功能，也有助于大模型更加结构化和规范化，减少数据信息冗余和碎片化等弊病，提高大模型的效率。

大模型需要向量数据库的支援。向量是大模型的数据存储的基本单位。虽然大模型呈现端到端、文本输入输出的形式，但是实际接收和学习的数据并不是传统文本，因为文本本身数据维度太高、学习过于低效，所以需要向量化的文本。

“所谓向量化的文本，就是模型对自然语言的压缩和总结。”向量是人工智能理解世界的通用数据形式，大模型依赖向量数据库，其即时性对分散式运算的要求很高，随着数据的变化即时更新，以保障向量的高效存储和搜索[23]。

大模型具有不断成长的泛化（generalization）功能。大模型泛化是指大模型可以应用（泛化）到其他场景，泛化能力是模型的核心。大语言模型通过大量的数据训练，掌握语言中的潜在模式和规律，在面对新的、未见过的语言表达时具有一定的泛化能力。在新的场景下，针对新的输入信息，大模型就能做出判断和预测。

而基于语法规则、句法规则的传统语言模型通常需要人为编写和维护规则，对于未见过的语言表达可能表现较差。针对泛化误差，大模型通常采用迁移学习、微调等手段，在数学上权衡偏差和方差。

大语言模型广泛应用于自然语言处理领域的多个任务，如语言生成、文本分类、情感分析、机器翻译等。说到底，大模型的泛化就是指其通用性，最终需要突破泛化过程的局限性。但是，实现通用大模型，还有很长的路。

大模型植入了控制论的基于人类回馈的强化学习机制。回馈是控制论中的基本概念，是指一个系统把信息输送出去，又把其作用结果返回，并对信息的再输出产生影响，起到控制和调节作用的过程。大模型构建人类回馈数据集，训练一个激励模型，模仿人类偏好对结果打分，通过从外部获得激励来校正学习方向，从而获得一种自适应（self-adaptive）的学习能力。

04
大模型和Transformer

如果说神经网络是大模型的“大脑”，那么Transformer就是大模型的“心脏”。2017年6月，Google团队的瓦斯瓦尼（Ashish Vaswani）等人发表论文《注意力足矣》（“Attention Is All You Need”），系统提出了Transformer的原理、构建和大模型演算法。此文的开创性思想，颠覆了以往将序列建模和循环神经网络画等号的思路，开启了预训练模型的时代[24]。

Transformer是一种基于“注意力机制”（attention mechanism）的深度神经网络，可以高效并行处理序列数据，与人的大脑非常近似。Transformer的基本特征如下：

（1）由编码组件（encoder）和解码组件（decoder）两个部分组成。

（2）采用神经网络处理序列数据。神经网络的工作是将一种类型的数据转换为另一种类型的数据；在训练期间，神经网络的隐藏层以最能代表输入数据类型特征的方式调整其参数，并将其映射到输出。

（3）拥有的训练数据和参多，它就愈有能力在较长文本序列中保持连贯性和一致性。

（4）标记和嵌入。输入文本必须经过处理并转换为统一格式，然后才能输入到Transformer。

（5）实现并行处理整个序列，从而将深度学习模型扩展到前所未有的速度和容量。

（6）引入了注意力机制，在正向和反向的非常长的文本序列中跟踪单词之间的关系，包括自注意力（self-attention）机制和多头注意力（multi-head attention）机制。Transformer的多头注意力机制中有多个自注意力机制，可以捕获单词之间多种维度上的相关系数注意力评分（attention score），摒弃了卷积神经网络和循环神经网络。

（7）训练和回馈。在训练期间，Transformer提供了规模非常大的配对示例语料库（例如英语句子及其相应的法语翻译）。编码器模组接收并处理完整的输入字串，尝试建立编码的注意向量和预期结果之间的映射。

在Transformer之前，发挥近似功能的是循环神经网络或卷积神经网络。Transformer起初主要应用于自然语言处理，但渐渐地，它们在几乎所有的领域都发挥了作用。通用性一直是Transformer最大的优势，包括图像、视频、音讯等多种领域的模型都需要使用Transformer。

总之，Transformer是一种非常高效、易于扩展、并行化的神经网络架构，其核心是基于注意力机制的技术，可以建立起输入和输出数据的不同组成部分之间的依赖关系，具有品质更优、更强的并行性和训练时间显著减少的优势。Transformer现在被广泛应用于自然语言处理的各个领域，如GPT、BERT等，都是基于Transformer模型。

05
大模型、GPU和能源

任何类型的大模型都是由复杂构造支援的，包括硬件基础设施层、软件基础设施层、模型Maas（Mobility as a Service，即“交通行动服务”）层和应用层（图2）。在这一结构中，GPU就是硬件基础设施层的核心所在。随着人工智能时代的到来，人工智能演算法效率已经超越了摩尔定律（Moore's Law）。

摩尔定律的内容为：积体电路上可容纳的电晶体数目，约每隔两年便会增加一倍。二十一世纪以来，摩尔定律面临新的生态：功耗（包括开关功耗）、记忆体极限，以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限，无法回避量子力学的限制。

在其限制下只有三项选择：延缓摩尔，扩展摩尔，超越摩尔。延缓摩尔定律即突破技术难题，延长该定律的适用时间；扩展摩尔定律即将该定律推广至诸如量子电脑一类新兴计算平台；超越摩尔定律即另辟蹊径，通过技术组合方案如“芯粒”（chiplet），实际达到最新的计算能力要求。

图2大模型产业的多层结构
来源：笔者绘制

GPU具有数量众多的运算单元，采用极简的流水线进行设计，适合计算密集、易于并行的程式，特别是具备图形渲染和通用计算的天然优势。大模型的训练和推理对GPU提出了更高的要求：更高的计算能力、更大的显存容量、更快的显存频宽、更高效的集群通信能力、低延迟和低成本的推理。

GPU可以通过异构计算（heterogenous computing）提供端到端的深度学习资源，缩短训练所需的环境部署时间。总之，GPU的高性能计算推动了大模型的发展，大模型不断对GPU提出迭代要求。例如，微软（Microsoft）为OpenA1开发的用于大模型训练的超级电脑是一个单一系统，伺服器拥有超过28·5万个CPU内核、1万个GPU和400Gbps的网络连接。

大模型的演变将加速对能源的需求。根据国际数据公司（IDC）预测，到2025年，全球数据量将达到175zB，而且近90%的数据都是非结构化的。这些数据需要大量的计算能力才能被分析和处理。同时，随着人工智能演算法不断升级和发展，它们的复杂性和计算量也在不断增加。

据估计，目前人工智能的能源消耗占全球能源消耗约3%，而据此推断，到2025年，人工智能将消耗15%的全球电力供应。除了硬件开发所必须投入的「固定碳成本」以外，对于人工智能日常环境的维护投入也不容小觑。所以，人工智能的快速发展将对能源消耗和环境产生巨大的影响[25]。

人工智能的快速发展和应用带来了能源消耗和环境问题，需要在技术和政策上寻求解决方案。在这个过程中，需寻求可持续的能源供应，以减少对传统能源的依赖，开发在非常低功耗的芯片上运行的高效大模型。

06
大模型和知识革命

一般来说，知识结构类似金字塔，包括了数据、信息、知识和智慧四个层次（图3）。大模型具有极为宽泛的溢出效应。其中最为重要的是引发前所未有的学习革命和知识革命。

图2大模型产业的多层结构
来源：笔者绘制

06
大模型和知识革命

图4知识图谱示例
来源：笔者绘制

简言之，如果大模型与外部知识源（例如搜寻引擎）和工具（例如程式设计语言）结合，将丰富知识体系和提高获取知识的效率。万物皆可人工智能化，大模型将引发知识革命，形成人类自然智慧和人工智能智慧并存的局面。

知识需要学习。基于赫布理论（Hebbian theory）的学习方法被称为“赫布型学习”。赫布理论又称“赫布定律”（Hebb's rule）、“赫布假说”（Hebb's postulate）、“细胞结集理论”（cell assembly theory）等，是一个神经科学理论，由赫布（Donald O.Hebb）于1949年提出，描述了在学习过程中大脑的神经元所发生的变化，从而形成记忆印痕[26]。

赫布理论描述了突触可塑性的基本原理，即突触前神经元向突触后神经元的持续重复的刺激，可以导致突触传递效能的增加。以深度学习为核心的大模型的重要特征就是以人工神经网络作为基础。所以，大模型是充分实践赫布理论的重要工具。

1995年，美国哈佛大学心理学家珀金斯（David N.Perkins）提出“真智力”（true intelligence），并提出智商包括三种主要成份或维度：

（1）神经智力（neural intelligence），具有“非用即失”（use it or lose it）的特点。

（2）经验智力（experiential intelligence），是指个人积累的不同领域的知识和经验，丰富的学习环境能够促进经验智力。

（3）反省智力（reflective intelligence），指一个人使用和操纵其心理技能的能力，类似于元认知（metacognition，对自己的思维过程的认识和理解）和认知监视（cognitive monitoring，指任何旨在评价或调节自己的认知的活动）等概念；有助于有效地运用神经智力和经验智力的控制系统[27]。大模型恰恰具备上述三种主要成份或维度。

所以，大模型不仅有智慧，而且是具有高智商的一种新载体。

07
大模型和“人的工具”

虽然大模型实现智慧的途径和人类大脑并不一样，但是最近美国约翰斯·霍普金斯大学（Johns Hopkins University）的专家发现，GPT-4可以利用思维链推理和逐步思考，有效证明了其心智理论性能。在一些测试中，人类的水平大概是87%，而GPT-4已经达到100%。

此外，在适当的提示下，所有经过基于人类回馈的强化学习训练的模型都可以实现超过80%的准确率[28]。如果人工智能互联网化，或者互联网人工智能化，无疑会推进智慧革命的积聚和深化。

在现实生活中，大模型的冲击正在全面显现。例如，GPT作为一种基于大规模文本数据的生成式大模型，包括对语言学、符号学、人类学、哲学、心理学、伦理学和教育学等广义思想文化领域的冲击，对自然科学技术的全方位冲击，进而对经济形态及其运行的冲击，对社会结构的冲击，以及对国际关系的冲击。此外，值得关注的是，人工智能已经开始进入金融领域，与加密数位货币结合。

2020年，OpenAI联合创始人奥特曼（Samuel H.Altman）推出名为“世界币”（Worldcoin）的加密货币项目，期望通过人工智能技术支援的全球化金融公平与普惠的开源协定，支援私人数位身份和新的金融系统，“赋予人工智能时代的个人权力”。至2023年5月，超过一百五十万人加入了加密货币钱包World App的测试阶段，已经在八十多个国家或地区可用。

现在，人类面临的大模型挑战，还不仅仅是职场动荡、失去工作、增加失业的问题，而是更为严酷的现实课题：人类是否或早或晚会成为大模型的工具人？不仅如此，如果人工智能出现推理能力，在无人知道原因的情况下越过界限，是否会发生人工智能确实伤害甚至消灭人类的潜在威胁?最近网上有这样的消息：有人利用最新的AutoGPT开发出ChaosGPT下达毁灭人类指令，人工智能自动搜索核武器数据，并招募其他人工智能辅助[29]。

大模型是人工智能历史的分水岭，甚至是工业革命以来人类文明史的分水岭：在这之前，人们更多关注和讨论的是人类如何适应机器，以及和机器人合作，实现艾西莫夫（Isaac Asimov）的“机器人三定律”（Three Laws of Robotics）；现在进入如何理解大模型、如何预知人工智能的危险拐点，特别是某些人类和人工智能合作，反对另外的人类，甚至发生人工智能的彻底失控。

人工智能聊天机器人（包括ChatGPT）即使经过数百万文本源的训练，可以阅读并生成“自然语言”文本语言，但是就像人类自然地写作或交谈一样，不幸的是它们也会犯错。这些错误称为“幻觉”，或者“幻想”。值得注意的是，因为人工智能幻觉的存在，很可能发生对人类决策和行为的误导。

正是在这样的背景下，2023年3月29日，马斯克（Elon R.Musk）联名千余名科技领袖，呼暂停开发人工智能，认为这是场危险竞赛，让我们从不断涌现出具有新能力、不可预测的黑匣子模型中退后一步。

据《纽约时报》（The New York Times）报导，身在多伦多的图灵奖得主辛顿在4月向Google提出了请辞。辛顿离职的原因是为了能够“自由地谈论人工智能的风险”；他对自己毕生的工作感到后悔，“我用一个正常的理由安慰自己：如果我没做，也会有别人这么做的”。

辛顿最大的担忧是：人类只是智慧演变过程中的一个短暂阶段，人工智能很可能比人类更聪明[30]。未来的人工智能很可能对人类的存在构成威胁，所以停止发展人工智能也许是一个理性的做法，但不可能发生。人们应该合作，阻止人工智能的无序发展。[31]对比GPT-4刚发布时，辛顿还是何等赞誉有加：“毛虫吸取了足够的养分，就能化茧成蝶，GPT-4就是人类的蝴蝶。”[32]仅仅一个多月的时间，辛顿的立场发生如此逆转，这不免让人们想到第二次世界大战之后，爱因斯坦（Albert Einstein）和奥本海默（Julius R.Oppenheimer）都明确表达了为参与核武器研发和提出建议感到后悔，更为核武器成为冷战筹码和政治威胁的工具感到强烈不满。

事实上，控制论之父维纳（Norbert Wiener）在《人有人的用处：控制论和社会'》（The Human Use of Human Beings:Cybernetics Society）一书中认为，机器要在所有层面上取代人类，而非只是作为人类的工具提供替代性的力量，因此机器对于人类的影响是深远的[33]。霍金（Stephen Hawking）生前也曾多次表达他对人工智能可能导致人类毁灭的担忧。

遗憾的是，现在世界处于动荡时刻，人类已经自顾不暇，无人知晓人工智能的下一步会发生甚么。《机械姬》（Ex Machina）是一部2015年上映的英国科幻电影，讲述主人公受邀鉴定人形机器人是否具备人类心智所引发的故事，其中有这样的苍凉台词：“将来有一天，人工智能回顾我们，就像我们回顾非洲平原的化石一样，直立猿人住在尘土里，使用粗糙的语言和工具，最后全部灭绝。”

近日有一个消息：来自瑞士洛桑联邦理工学院（École polytechnique fédérale de Lausanne）的研究团队提出了一种全新的方法，可以用人工智能从大脑信号中提取视频画面，迈出了“读脑术”的第一步。相关论文已于《自然》（Nature）杂志刊登[34]。据说该文受到很多质疑，但可以肯定的是，不仅愈来愈多的科学家、工程师和企业家，包括天才，还可能有某些阴暗和邪恶力量，正在试图影响和改变人工智能发展的方向和路径，增加人们与日俱增的不安。如果说人工智能是人类的又一个潘朵拉盒子，很可能再无人能将其关上。

在人类命运面临的巨变趋势下，人类选择在减少，然而不可放弃让人回归人的价值，需要留下种子一一火星迁徙至少具有这样的超前意识。

08
结语

在人工智能1.0时代，人工智能数据来源是需要人工参与标注并且专注于特定领域的结构化数据；而在人工智能2·0时代，人工智能无需人工干预而能够处理海量数据，具备跨领域的能力（图5）。随着大模型发展，人工智能从1.0时代加速进入2.0时代。

图5人工智能1.0和2.0

图片来源：笔者改制自《创新工场李开复：AI 2.0已至，将诞生新平台并重写所有应用》（2023年3月14日），搜狐网，www.sohu.com/a/653951867_114778

在人工智能2.0时代，大模型分工愈来愈明确，日益增多的大模型，特别是开源大模型会实现不同的组合。支援大模型的数据不仅要求高品质，而且必须开源，任何与开源大模型的竞争必然注定失败。前述Meta的LLaMA模型所支援的就是开源社区。

可以预见的是，大模型规模的扩大存在着极限：一方面是物理性限制，一方面是大模型存在收益递减的拐点。所以，大模型设计或架构需考虑如何引入控制论，以适应人类回馈。大模型将乐高（Lego）化，构成大模型集群，不仅推动人类社会、物理空间和信息空间日益紧密融合，而且正在生成一个大模型主导的世界（图6）。

图6人类社会、物理空间、信息空间三重视角下的大模型
来源：笔者改自Shiqiang Zhu et al.,"Intelligent Computing:The Latest Advances,Challenges,and Future",Intelligent Computing,vol.2(January 2023),http://doi.org/10.34113/icomputing.0006

在这样的历史时刻，我们需要重新认识生成主义（enactivism）。生成主义由瓦雷拉（Francisco J.Varela）、汤普森（Evan Thompson）和洛什（Eleanor Rosch）在《具身心智：认知科学和人类经验》（The Embodied Mind:Cognitive Science and Human Experience）中提出，主张心智能力是嵌入在神经和体细胞活动中的，并通过生物的行为而涌现[35]。

论者指出，“生成认知强调，我们所经验的世界是有机体的物理构成、它的感觉运动能力和与环境本身互动的产物。有机体的世界不是一个预先给定的、客观的、静待有机体去‘经验’、‘表征’或‘反映’的中性世界。相反，世界是通过有机体的行动或动作而生成的”[36]。人工智能的生成式大模型，确实包括生成主义的要素。人工智能将给生成主义注入新的生命力。