首页 > 专栏

【专栏】人形机器人的AI算法,如何借力于自动驾驶FSD——AI专题报告之十二(上)

虚拟人焦娟 · 零壹财经 2023-09-01 13:23:37 阅读:12840

关键词:AI人工智能元宇宙机器人虚拟现实

作者 | 焦娟 王利慧 来源 | 零壹财经专栏 安信传媒 行业动态报告 本文来自安信证券研究中心于2023年8月20日发布的专题报告《人形机器人的AI算法,如何借力于自动驾驶FSD——AI专题报告之十二》 焦娟S1450516120001/王利慧 核心观点 在我们的研究框架...
作者 | 焦娟 王利慧 来源 | 零壹财经专栏
 
安信传媒 行业动态报告
 
本文来自安信证券研究中心于2023年8月20日发布的专题报告《人形机器人的AI算法,如何借力于自动驾驶FSD——AI专题报告之十二》
 
焦娟S1450516120001/王利慧
 
核心观点
 
在我们的研究框架中,AGI、混合虚拟现实、元宇宙均描述的是未来成型的生态。AGI/虚拟现实的真正实现,首先依托于智能科技视角下的两条技术路径——混合平台、重构时空,人形机器人即混合平台的一种工程方案。智能科技视角下,chatGPT是生产力范畴、MR眼镜与人形机器人是不同的计算平台/新空间,我们预计其中MR眼镜将于2024年进入C端,人形机器人预计将于2026年进入家庭C端。
 
国内外市场对人形机器人产业进程的分歧巨大(落脚于能否2026年进家庭C端),源于硬件的诸多关键部位均需0-1的定制化研发,软件(主要是AI算法)部分则较车端自动驾驶更具挑战。我们本篇报告聚焦于软件部位的AI算法部分:AI算法部分为何至关重要?自动驾驶FSD详细分析及最新进展、人形机器人的AI算法部分如何借力于FSD?

软件算法的迭代速度、技术高度对人形机器人的导入速度、产品高度起到决定性的作用,且随着硬件体系成熟,软件算法的重要性会愈加凸显:
1)人形机器人与传统机器人的突破在和物理世界的实时感知交互,决定其实现的关键在于软件算法;2)算法能力的提升在一定范围内会降低对硬件的依赖与精度要求,参考自动驾驶方案逐步降低对雷达的依赖走向纯视觉方案;3)当产品的成熟度达到一定高度后,硬件趋向同质化,很难体现出产品的差异性,在一定范围内所体现出的重要性或将逐步降低,而软件的成熟度、稳定性等因素将日益成为影响产品差异性竞争力的重要因素。

特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“4D空间+占用网络”的核心架构。自动驾驶方案主要有感知、决策规划、运动控制三个模块,其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基础;建立在准确、可靠的感知输出结果上,决策规划模型相当于“大脑”,对自车及周边环境轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后,运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车等执行器进行操作,最终实现对汽车的控制。

我们对特斯拉FSD算法进行详细拆解,并对比了人形机器人与自动驾驶方案的异同:我们认为人形机器人建立在FSD的基础上有算法能力及供应链的加持,导入速度更快;但考虑到自由度更多,规控算法难度较大,因此达到成熟需要一定周期,预计未来会类似于自动驾驶一样,呈现产品智能等级逐步提升的过程。

相较市场对硬件部分的关注,我们本篇报告特别关注软件算法平台的机会:

1.市场认为机器人最终会类似于自动驾驶一样走向自研。我们则认为:


1)短期内对于希望升级至人工智能方向的制造商,可能会借助软件算法公司的积累而进行业务迭代;

2)长期来看机器人与自动驾驶的场域更加开放,为了提高用户体验,可能会走向更多长尾功能及场景的优化,体现为种类繁复的执行器及规控操作。如若每个公司都在感知等基础平台上重复造轮子,可能会带来产业资源的浪费。因此若最终指向通用人形机器人,我们判断感知、决策被模型化后或许会成为类似今天基础大模型一样的存在,在这类能力上具备强大实力的公司可能成为平台型的公司,而在其之上,不同应用场景的机器人公司可以部署垂类小模型,基于相应的执行器进行调整,这种模式或许是更经济的方案。由此推演,我们认为或许不排除未来特斯拉会成为AI公司提供基础能力,将上层执行器及运动控制的方案开放给更多的第三方合作伙伴。
 
2.有观点认为国内技术创新能力不足,不具备提供平台型能力的实力。我们反而认为:从算法能力方面,中国车企在自动驾驶方案上已经有一定积累,特别是新势力如理想、小鹏、华为地平线等在感知、决策规划上已经具备相应的能力,且地平线已经宣布将进军机器人领域。此次大模型的火爆也在很大程度上推动了对技术创新、工程化落地重要性的认知,量变的积累可能引起质变,推动国内技术方案及工程能力整体水平的提升,因此我们认为国内的新势力公司仍值得关注。
 
关注人形机器人产业链:
 
1、特斯拉及其产业链上生态合作伙伴:其中软件部分系特斯拉自研,国内在产业链上的参与方式主要在零部件;

2、传统机器人向智能化升级:传统人形机器人做智能化升级,比如波士顿动力引入ChatGPT做交互;非人形机器人向智能人形机器人迭代,如傅利叶智能

3、互联网大厂向机器人方向拓展:谷歌、腾讯、字节跳动等;

4、自动驾驶新势力:地平线等。
 
5、芯片、算力、数据等也非常重要:云端算力如超算中心的芯片及服务器;边缘、端算力,关注云天励飞;仿真模拟数据等。
 
6、风险提示:技术迭代进展不及预期、算力投产速度不及预期、安全、隐私法规等政策风险、测算不及预期。
 
 
报告正文
 
1
安信智能科技研究框架
 
当下,我们正处于下一代计算平台构建成型的起点上,以“智能”的真正实现为总纲,技术维度的要素创新,包括混合虚拟现实(MR)、人机共生/协同(AI)两个方向,其中MR本质上是重构时空,人机共生/协同本质上是混合平台,混合平台又包括不同的工程方案——人形机器人(以机器为智能载体)、脑机接口(以人为智能载体)。

工程方案理论上会有无穷多,具象的工程方案探索,严格意义上仍在初期(目前仅基于视觉的技术探索),但所有的工程方案都可以收拢到具体的技术路径中,任何技术路径的目标是实现虚拟现实,即模糊掉虚拟与现实之间的边界。目前主流的技术路径为,一是以AR的技术路径去实现,但现阶段AR相关技术仍待攻克;二是先VR再迭代至MR,以VR作为过渡。

混合平台是智能实现的另一条技术路径。如果将人的身体看作“硬件”,智能的实现过程,也是新智能交互硬件层出不穷、旧硬件迭代甚至是重塑的过程。因此,未来的智能硬件不仅包括冷冰冰的电子器件本身,也包括人类和电子器件之间不同程度的耦合,即指向人机共生/协同。在这条技术路径上,脑机接口与人形机器人是不同的工程方案,即智能的实现分别以人、机器人为载体。
 
 
2
产业趋势:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发
 
根据陆奇对于人工智能进化路径的理解,人作为最成熟的通用智能体,在处理外部环境时依次用到了“信息”系统、“模型”系统、“行动”系统,分别获取数据信息、分析处理信息并做出决策、基于决策目标做出行动。机器如果想要发展成为像人一样的通用智能体,则也需要有这三个系统,其演进的过程可以简单的概括为机器感知世界、理解世界、参与世界。而前沿科技研究转化为生产力有一定的过程,引发生产力大变革的拐点在于当应用这项技术的边际成本转化为某些特定公司固定成本时,产业浪潮出现。(资料来源:奇绩创坛)我们认为这背后原因是当应用技术的边际成本转化为固定成本的时候,行业可以发挥规模效应分摊技术成本,且减少了重复资源浪费。
 
 
回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下降,转化为特定大公司如OpenAI背后的算力、人才、数据成本;仍有待突破、充满挑战的是“行动”系统的智能化:

1)互联网时代推动“信息”系统成熟化——机器能够感知人类世界


现实物理世界的信息以各种形式存在,如纸质的文字、对话、图像等,机器如果需要和物理世界进行交互,识别信息是第一步。1995年进入互联网时代,PC、互联网的普及加速了信息的线上化,使物理世界能够转化为机器可读取的信息,目前物理世界的线上化率已经达到较高的水平,体现为:
 
过去十年移动互联网发展进一步加速了用户上网率的提升,截止2022年,全球互联网用户规模为53.9亿,相较于2013年增长92.5%,上网用户的渗透率达到67.9%;2022年中国互联网用户为10.67亿,较2013年增长72.65%,中国上网用户的渗透率高于全球水平,达到75.6%。
 
 
互联网上覆盖了丰富多元的用户场景,以中国互联网应用为例,2022年网民使用率排名前五大的应用类别为即时通信、网络视频、短视频、网络支付、网络购物,分别为97.2%、96.5%、94.8%、85.4%、79.2%,涵盖了通讯、娱乐、购物的用户需求。此外线上办公、网约车、互联网医疗场景应用的网民使用率也分别达到了50.6%、40.9%、39.6%,也体现出用户生活的全面线上化趋势。
 
 
用户规模增长及线上用户场景的多元化也在推动数据量的快速增长,从而提供了海量的信息供机器进行学习。根据Statista给出的数据,2016-2020年全球产生的数据量依次是18ZB、26ZB、33ZB、41ZB、47ZB,数据量增长的复合增速是27.11%。我们认为随着各类应用的用户使用率提升,未来全球产生的数据量规模也将加速增长。
 
 
2)大模型展示出泛化能力,“模型”系统正走过拐点——机器能够理解人类世界

得益于数据、算力滋养,神经网络模型能力逐步显现,行业主流模型从CNN、RNN走向Transformer。
2006年提出深度学习算法后,神经网络结构经历了RNN、CNN等几代的进化,在视觉领域取得了非常显著的突破,2014年3月,香港中文大学多媒体实验室自主研发的DeepID系列面部识别算法准确率达到98.52%,在全球范围内首次超过人眼识别准确率,突破工业应用的红线。因为语序对于语义理解很重要,而不同语言间语序的重心又有所不同,因此在小模型阶段CNN、RNN算法在语言模型并未取得显著进步,因此这一阶段人工智能技术的突破主要体现在计算机视觉领域。2016年AlphaGo打败世界围棋冠军李世石,进一步引爆了人工智能的浪潮,推动人工智能应用在金融、安防等场景的渗透率提升及全球人工智能创业热潮。但这一阶段均为小模型,需要针对不同场景重新标注数据对模型进行训练,人工标注成本较高且模型泛化能力较差,导致拓展项目边际成本较高而收入增长速度缓慢。2017年谷歌在论文《AttentionIsAllYouNeed》中提出了Transformer架构,Transformer架构基于自注意力机制,通过赋予权重能够并行化处理序列间关联关系,在自然语言处理领域中得到了广泛的应用,如机器翻译、文本分类和生成模型等。
 
 
GPT系列模型提出“预训练-微调”的模式,表明训练模型具备规模效应。OpenAI在Transformer架构的基础上又进一步提出GPT模型,其突破在于训练时采用“预训练-微调”的模式,先采用大量无标注的语料预训练语言模型,然后对预训练好的语言模型进行微调,将其迁移到有监督学习的任务上。我们认为这种模式所产生的价值在于提供了将训练模型的边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本,而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。
 
 
从GPT-3开始表现出涌现能力,大模型不仅具备规模效应,还产生了能力跃迁。随着模型参数增加及语料库的丰富,到GPT-3上模型参数达到1750亿,模型开始体现出涌现能力,即不仅体现出训练成本的规模效应,还带来模型能力的增加,这推动了学术界、产业界对于大模型的追捧,比如谷歌的BERT、智源悟道、百度文心、华为盘古、阿里达摩院M6等大模型。GPT系列模型取得的成果给计算机视觉模型也带来了很多启发,被用于图像分类、图像切割等领域,例如商汤目前拥有320亿参数的视觉大模型,是亚洲最大的视觉大模型之一。(数据来源:商汤公司公众号)
 
 
GPT-4实现多模态能力,感知能力极大提升。GPT-1到GPT-3.5均为语言大模型,GPT-4增加了视觉模型,并实现了语言与视觉跨模态信息的对齐,类似于人类认知世界时,眼睛看到的图像信息会帮助我们加深对事物的认知,而反过来因为具备认知能力,看到不认识的事物时也能知道其功能,会提升视觉识别信息的能力,因此多模态能力的建立帮助机器提高了感知能力,并为复杂场景中的决策规划打好了基础,进而机器能够发挥计算优势,给出更好的行动方案。
 
 
3)基于“信息-模型“系统,“行动”系统到来有望加速——机器智能参与人类世界
 
指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:

在数字世界:
体现为机器基于特定目标,自主完成任务并且自我迭代,对应于当前研究热度较高人工智能代理Agent,目前已经出现的产品包括Auto-GPT、Baby AGI、Agent GPT、Microsoft Jarvis、ChaosGPT等;
 
在物理世界:交互需要借助相应的躯体,由此引出具身智能的概念。具身智能指智能体(可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力,自动驾驶、智能机器人等即为典型的智能硬件产品。在实际生活中已经出现了很多机器人,如工业场景的码垛机器人、搬运机器人,商业服务场景的送餐机器人等,我们认为其与智能硬件的区别在于,传统机器人是基于固定坐标系进行特定执行操作的机器人,并不具备实时感知能力。传统机器人若想要向智能机器人升级,其优势在于执行控制模块具有优势积累,需要补足感知及决策模块。
 
 
特斯拉人形机器人是目前最激进的智能硬件,且产品迭代速度很快。与现有机器人不同,特斯拉人形机器人以自动驾驶FSD为支撑,实时获得环境信息并进行决策规划,最终输出行动指令,形成了“感知-决策规划-运动控制”的实时交互反馈机制。为了增强机器人的普适性,将其设置为人形,是因为现实物理世界是基于人的视角、交互习惯所设置的,采用人形能够用第一视角理解环境场景。从2021年8月特斯拉在其首届AIDay上首次公开展示人形机器人的概念机TeslaBot至今,其研发迭代速度非常快:
 
2021年8月,首届AIDay公开展示人形机器人概念机TeslaBot;

2022年2月,推出人形机器人原型机,并作为开发平台进行深度研发;

2022年8月,第二届AIDay,展示实体版本人形机器人,可以直立行走、浇花、搬运东西等,但灵活度相对较低,上下舞台时需要一定的人员协助;

2023年5月,特斯拉2023年投资者大会发布人形机器人最新研发进展,其已经学会了缓慢前行。
 
 
机器人潜在应用场景空间广阔。在2022年特斯拉的AIDay上,马斯克提出特斯拉机器人最初的定位是替代人们从事重复枯燥、具有危险性的工作,但远景目标是让其服务于千家万户,比如做饭、修剪草坪、照顾老人等。随着硬件成本下降,有望推动用户需求增长,我们认为驱动用户买单的主要原因包括但不限于劳动力成本上涨、劳动力短缺、安全考虑等。此外,由于涉及的场景较为广泛,我们判断除了人形机器人外,未来可能还会衍生出更多不同形状的智能硬件,其核心在于实时感知与交互性,而外在躯体的样式可以根据所处场景进行适配,采用不同的执行器,可以预见机器人未来的市场空间非常广阔。

一旦人形机器人落地,“行动”智能系统产业化拐点或将加速到来。从软件层面看,参考人是目前最强大的通用智能体,人形机器人的算法难度最高,若算法能在人形机器人上实现,向其他场景泛化本质上是降维;其次从硬件层面,执行器等零部件若能共用产线,会因为量产规模的增加而带来单个零部件的成本下降。因此综上,我们认为人形机器人达到一定成熟度后,面向不同场景需求而研发具有“行动“系统的智能交互硬件的边际成本也将显著下降,从而推动产业化浪潮的加速来临。
 
3
自动驾驶FSD有望迎来量产落地
 
特斯拉人形机器人的软件算法建立在自动驾驶所积累的数据、算法架构基础之上,由于目前官方披露人形机器人的算法相关数据相对较少,我们将先以自动驾驶FSD算法为基础进行原理的解释,进而说明人形机器人与整车算法的不同来帮助理解人形机器人算法研发所处阶段。
 
参考前述“三位一体结构化模式”,自动驾驶方案主要有感知、决策规划、运动控制三个模块,其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基础;建立在准确、可靠的感知输出结果上,决策规划模型相当于“大脑”,对自车及周边环境轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后,运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车等执行器进行操作,最终实现对汽车的控制。而运动控制一旦发生,必然产生空间位移,这需要感知模型实时获取空间位移信息变化,重新评估决策形成正向反馈。在上述处理流程中,数据、算力发挥重要支撑作用。
 
 
特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“4D空间+占用网络”的核心架构。特斯拉自动驾驶方案早期由供应商Mobileye提供,2016年双方终止合作后,特斯拉经历了与英伟达短暂合作后,转向全栈自研,从技术落后到引领行业发展,特斯拉的技术方案主要经历了以下四次关键的技术迭代升级:
 
2018年构建了多任务学习神经网络架构HydraNet,相较于此前单一目标检测遵循一个通用的网络结构,HydraNet能够完成多头共用的任务,减少重复计算;

2020年特斯拉团队对底层代码进行重写及网络重构,引入了Transformer的架构,将2D图像复原至3D视角,使得自动驾驶方案环境感知的能力有了质的飞跃,BEV+Transformer的架构解决了行车过程中大多数共通的场景,但驾驶的安全性仍受到很多长尾场景的挑战;

2021年至今特斯拉BEV+Transformer架构输出的3D空间基础上使用视频信息作为训练模型的数据集,引入了时序信息,使3D空间转化为4D空间,这样能够很好的解决物体、行人被遮挡的场景;

2022年AIDay上特斯拉引入了占用网络,环境中的物体无法用模型穷举实现识别,占用网络通过将空间分割为体积不等的体素,预测其是否被占用,从而解决通用障碍物的识别的问题。
 
 
3.1.感知层:进入“4D重建+占用网路”阶段,感知体系已较为成熟
 
在自动驾驶传感器领域,一直分为视觉派和雷达派两大派系,最简单的区别就是:前者主张使用高清摄像头+视觉识别算法,后者主张除摄像头外,再加入激光雷达、超声波雷达、毫米波雷达等感知硬件提高信息冗余以保证系统稳定。
 
 
特斯拉坚持第一性原理,是视觉派的坚定拥护者。特斯拉认为就像人只需要眼睛和大脑就可以完成对周围环境的感知一样,自动驾驶也只需要借助摄像头和算法就能够实现这样的能力。早期由于算法能力不足,特斯拉传感器套件中除了八个摄像头外,还包括一个前置雷达和车辆周围的几个超声波传感器。2021年特斯拉宣布向TeslaVision方案过渡,从2022年10月上旬开始,特斯拉为北美、欧洲、中东和中国台湾制造的所有Model3和ModelY不再使用超声波传感器,而是完全依赖TeslaVision来实现自动驾驶功能。当前特斯拉车上共有8颗摄像头,分别分布在左右前翼子板各1个,左右B柱各1个,后牌照上方各1个,前挡风玻璃后各3个,8颗摄像头视野范围达到360度,对周围环境的监测距离最远可达250米。每个摄像头采集分辨率为1280×960、12-Bit、36Hz的RAW格式图像作为信息输入。
 
 
上述摄像头捕捉到的视觉信息作为感知层的输入,经过一系列神经网络的处理将输出4D向量空间,其操作步骤依次如下:1)相机校准:对摄像头采集信息进行色温、位移的校准,调整为标准虚拟相机数据,做校正变换后,之前模糊的图像会变得清晰;2)通过RegNet、BiFPN两个神经网络结构提取单视角图像特征;3)利用Transformer架构及占用网络对单视角特征进行转换及三维重建,包括先将为每个相机对应的图像特征转换为Key和value,再进行表搜索找到关联关系进行空间拼接,之后根据摄像头、IMU等传感器采集的时序特征进行时空联合对齐,最终转化4D空间(包含空间中的x、y、z坐标及时间t),之后会采用反卷积的方式将其对应到8个摄像头中,若存在偏差则继续修正重建效果。
 
 
在上述感知操作的流程中,我们强调三个关键的技术:
 
1)HydraNets:共用主干网络,模型训练边际成本低使业务拓展性强
 
特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈部(Neck)与头部(Head)共同组成,早期在图像检测任务中,特斯拉针对每个任务都设计了一套神经感知网络,分别由各自的backbone-neck-head构成。2019年对架构进行调整,提出多头任务处理架构HydraNets,简称九头蛇网络,这种架构是将主干网络合并,由一个共同共享的主干并分支成多个头。与此前的架构相比,其好处在于:可以避免不同任务间重复计算,提高运行效率;拓展性极强,当需要优化的新场景出现,只需要针对其特定的需求进行单独微调,既不影响现有任务运行,同时也能有效降低新业务研发的边际成本。比如针对大车开过会带起尘雾的场景,特斯拉会用自己的车队采集特殊场景数据,进行训练后加载Head部分即可。
 
 
2)Transformer架构:推动感知从2D视角走向4D重建,提高感知效率与可靠性
 
Transformer架构优势是使用注意力机制处理输入和输出之间的依赖关系,通过赋予权重找到关联关系。特斯拉2020年将Transformer引入感知模型,2020年特斯拉AIday上介绍展示了如何将检测到的物体、可驾驶空间和其他物体放入BEV鸟瞰图中,实现了环境感知从局部到整体的统一对齐,早期受限于数据质量、算力等诸多因素,BEV的输出仍为2D俯视图,与车所面临的3D物理空间中还是存在很大的不同,进而产生很多问题,比如无法估计物体的高度,以及在高度方向上如有多个障碍物可能检测不到等。随着数据、算力等综合能力的提升,Transformer架构能够处理参数量及数据量增加,帮助BEV鸟瞰图从2D俯视图升级为3D空间,更进一步地,由于坐标系相同,还可以进行时序融合形成4D空间。
 
 
Transformer架构完成了从摄像头捕捉的2D信息向4D向量空间的转换,使感知可靠性、标注效率大幅提升。早期特斯拉在感知层做标注时是基于单张2D图片进行标注,这种情况下标注误差很大,比如在图片中标注远处车道线时可能会出现位置偏移,从而导致汽车行驶过程转弯时间预估不准确或者压线等情况出现。在依托Transformer重建的4D空间下所带来的好处是:1)降低标注误差,4D空间相较于2D单视角图像对空间的认知更加全面,而且在被数学表示的空间,对于长度、速度等环境信息的认知更具体;2)提高标注效率,在4D向量空间中可以对建模后的场景进行拖拽、旋转等数字化的操作,为自动标注打好了基础。从而提高标注效率,根据特斯拉披露信息,2021年后在重建好场景中对单个clip进行标注的平均时间小于0.1hrs,对单个clip计算的平均时间为0.5hrs,相较于早期的图像标注效率有了大幅提高。
 
 
3)占用网络:解决通用障碍物识别问题,为安全兜底
 
特斯拉在2020-2022年围绕4D空间重建取得的进步,为占用网络的实现带来了可能性,只用网络指预测汽车周围所有物体的体积占用率,即将世界划分为一系列3D网格单元(也被称为体素)后,预计3D空间中的每个体素或连续点都有被占用的概率以及它的未来运动。2022CVPR及AIday上,特斯拉对占用网络OccupancyNetwork进行了详细的介绍,其实现的关键包括:

在提取图像特征后利用transformer机制计算得出3D空间的占据体积概率,定义哪个单元被占用,哪个单元是空闲的;在获得空间占用情况后,再结合里程计信息融合时序信息,构建4D向量空间;

对于单个物体而言,网格单元的大小可以被调整,以保证尽可能多地包裹到所有的物体;

4D空间中除了反映空间占用情况外,还用不同的颜色表示物体的速度、方向等信息;若物体之间若存在关系,还有一条有语义信息的边;
 
基于4D空间所描述的特征及预测的轨迹方向,最终输出occupancyVolume及动态的occupancyflow。
 
 
占用网络帮助特斯拉解决了通用障碍物识别的问题,增强了自动驾驶的安全性。在行驶的道路上,会遇到许多cornercase,其中可能包含很多数据库中并不存在的物体,比如侧翻的大卡车等,基于视觉感知的方案因无法获取其信息而决策失误发生事故。在占用网络下,类似情况会将其标注为空间占用,并根据感知信息为其赋予速度等值,根据以上信息车便能进行
做出避让等操作,因此我们认为占用网络是对数据库之外的信息识别的有效补充,进而为安全兜底。
 
经过上述感知过程,特斯拉感知模块最终有三个输出,分别是占用网络、车道线Lane及障碍物信息objects,得益于特斯拉大量的细节工作,输出的结果质量好、精度高,其将作为决策规划的输入,决定了后续工作的高度。
 
 
3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升

自动驾驶问题是高维度空间中的非凸问题,求解最优路径挑战很大
。自动驾驶决策规划模块需要解决的问题是在接收到感知模块输出后,在其所重建好的空间中找到一条轨迹可以最大限度地提高汽车的安全性、舒适性和效率,将车辆规划至目的地,因此其本质是找到一条满足约束的最优路径,如果用数学方法求解,自动驾驶的规划求解是在高维空间中解非凸问题,求解后得出的最优解可能只是局部最优,但考虑到安全问题,自动驾驶决策规划必须要尽可能达到全局最优。(资料来源:42号车库—详解特斯拉是如何做决策规划算法的?)
 
 
特斯拉决策规划的工作可以简单的理解为两部分工作,一是通过决策树生成潜在路径,二是通过打分机制对决策树剪枝,找到最优路径。

在决策树生成时,特斯拉参考蒙特卡洛模拟生成了交互树,其生成是由粗到细的:
1)在感知输出的占用网络、车道线、车道拓扑关系基础上粗生成行驶目标,给出车可能到达的车道线及行驶区域;2)利用传统优化算法,生成可能到达目标的行驶路径;3)动态博弈,考虑t+1、t+2等时间内与周边障碍物的交互博弈,继续生成新的轨迹。

模型被引入决策树生成,显著缩短规划路径生成时间。在决策树生成的过程中,特斯拉以数学优化为主,特斯拉针对优化求解进行了诸多工程上的优化以缩短决策规划时间,能够在1-5ms内完成计算,但是如若面对更复杂的城市场景中可能仍无法满足需求,2022年AIDay特斯拉介绍在生成网络时使用了轻量化的神经网络帮助快速生成规划路径,标志着模型被引入了决策规划中,在模型助力下,目前可以在100us内生成一个候选规划路径。
 
 
决策树剪枝是第二步,在有限的时间内完成响应需要拒绝掉一些偏差较大的方案。特斯拉也同样运用了传统优化方法及数据驱动下的神经网络模型结合的方式,其评价的维度主要包括了碰撞可能性、舒适度分析、类人程度、被接管的概率等。基于这些评分维度,最终筛选出最优的规划轨迹,作为决策规划的输出。
 
综上,特斯拉的决策规划方案在解决自动驾驶高维非凸问题上是结合了优化与神经网络的算法,如何平衡决策效率与安全性是当前决策规划任务的关键挑战。其中采用优化求解是建立在工程师可解释的人类驾驶规则上进行编码,保证了算法的可解释性,相对更安全可控;而结合神经网络计算是为了提高生成及筛选最优轨迹的效率,同时也能对不可建模的驾驶经验进行建模,从而推动自动驾驶走向更类人化的步骤,但由于模型是黑盒,具有不可解释性,在安全失误率容忍度极低的驾驶场景的应用仍较为谨慎。
 
决策规划输出的轨迹体现在特斯拉中控屏幕上为长度、方向变化的指示线,其本质上包含了目标位置、方向、速度及加速度等信息,这些信息被拆解为执行指令,作为运动控制模块的输入,进一步给到执行器。
 
 
3.3.运动控制:仅执行决策指令,在工业上较为成熟

当决策规划模块输出轨迹后,由于其本身包含了方向、速度、加速度等信息,进一步地分解为具体的指令,会交给域控制器MCU调用执行器进行操作。在运动控制方面,其承担的主要角色是做执行操作,这里主要是传统的工控软件,在行业内都比较成熟,并不涉及特别多AI算法,因此本文在此不做展开。

3.4.数据及标注:特斯拉领先之关键,已建立强大自迭代体系
 
从上述“感知-决策规划-运动控制”三个模块的方案介绍中,我们可以看到数据是重要的原料,如何得到大量、便宜且优质的数据对模型训练和结果输出都起到关键作用。
 
特斯拉自动驾驶方案的数据源包括车辆采集数据、仿真数据、影子模式三种,其中:1)自车辆采集数据是特斯拉自有车队及量产出售给用户的车辆上的摄像头实时采集的数据,是特斯拉训练模型的主要数据来源;2)仿真模拟数据是为了补充通过车端摄像头所无法采集到的长尾数据,以尽可能补全模型训练时所可能遇到的场景;3)影子模式,指特斯拉的自动驾驶模型部署到车端后在后台运行,其执行输出与驾驶员操作时的不一致数据,这部分数据作为很珍贵的异常数据用于为模型纠偏,帮助模型训练结果更加类人。
 
数据来源一:车辆采集数据
 
车辆采集数据以Clip作为最小标注单元。在感知部分,我们详细介绍了特斯拉车上的8颗摄像头所采集的视觉数据,该数据通常为一段45-60s的视频格式的路段数据。除了摄像头视觉传感器之外,车上还包括惯性测量单元(IMU)、GPS、里程计等传感器,其中IMU是负责測量物体在三維空間中的角速度和加速度,並以此解算出物体的姿态,主要用以保持平衡;GPS用于导航定位;里程计是用于测量汽车的速度、加速度信息。综上摄像头、IMU、GPS、里程计等传感器采集的数据会构成一个最小标注单元,被成为Clip。
 
每个Clip数据都经过RegNet、BiFPN提取图像特征进行特征融合,结合位置、速度、加速度以及时序特征等信息,用于实现将自身所处的物理世界转化至4D空间中,进而通过标注分解出静态路网与动态障碍物等感知任务的结果,用于后续输出。
 
 
与需要自建车队,装配昂贵的激光雷达,雇佣工程师驾驶车辆采集数据的自动驾驶团队不同,Tesla依靠实际卖出的车辆采集数据,不但获取车辆销售利润,还能依靠特斯拉车主来采集数据。2018年至今特斯拉每年车的销量持续提升,其中2022年、2023H1的销量分别为124.71台、85.91万台,分别同比增长40.34%、57.42%。截止2023年6月底,特斯拉售出的车辆累计达到435.51万辆。
 
 
上百万辆车在路上行驶帮助特斯拉产生了源源不断便宜的数据,特斯拉FSDbeta版本从上车部署至2022年已经累计采集超过20亿英里的数据,而且预计随着FSD用户渗透率提升,所能够采集的里程数将呈现加速增长。从数据的质量来看,由于数据来自于不同区域、不同驾驶风格车主真实环境决策有关的感知数据,数据多元且价值也极高。
 
 
数据来源二:仿真模拟数据
 
仿真模拟数据在自动驾驶方案中非常重要:1)模拟现实中无法采集到的长尾场景、极端场景,提高数据的多元性;2)对于长尾场景而言,实车采集与标注成本太高,可以通过仿真模拟降低成本;3)除了直接在虚拟场景中进行仿真训练,特斯拉还希望可以在仿真环境中重现真实世界场景,以便可以复现FSD失败的场景,实现在仿真环境下的优化迭代后再反哺汽车算法模型,实现“数据闭环”。
 
 
在仿真环节,最核心的工作是对环境进行充分建模,特斯拉采用的是游戏领域非常成熟的渲染引擎工具UnrealEngine(简称UE),其生成的物体非常逼真。特斯拉会在离线大模型上构建的4D空间,先用UE生成静态物体,如车道线、建筑物、树木等,然后在上面增加车流或者行人等动态流,以模拟所需要训练的场景数据。生成的仿真模拟数据作为重要的数据元之一,用以训练云端大模型,以帮助特斯拉提高自动驾驶能力。根据2021年TeslaAIDay公开的信息,特斯拉总共已经绘制了2000+公里的道路环境,通过仿真获得的虚拟数据规模已达到37.1亿张图片及4.8亿标注,且已实际融入车端模型中。
 
AIGC兴起也在推动仿真模拟能力提升。自动驾驶方案供应商Wayve目前正在尝试利用ChatGPT等语言大模型结合生成环境指令,在虚拟环境中实现环境感知与模型训练,这能够帮助降低采集数据的成本。我们认为基于此,仿真模拟的重要性或将被大幅提升,帮助完善训练工具。
 
 
数据来源三:影子模式
 
影子模式是运行在特斯拉车辆上的后台程序,用户接触不到影子模式,但是在每台特斯拉车辆上,影子模式“如影随形”,随时为数据采集做着准备。在影子模式下,特斯拉关注的是FSD版本运行时所作出的决策与人类驾驶员操作间的差异,会对产生偏差前后的数据进行重点采集并回传至云端,将这段异常数据作为输入,对训练好的感知、规控模型进行纠偏。影子模式的引入及持续迭代下,推动了特斯拉的自动驾驶操作更加类人化。
 
得益对这三类数据的处理,特斯拉形成了持续正反馈迭代的数据引擎及强大的自动标注工具。车辆采集数据、影子模式、仿真模拟数据有两个方面的作用:1)用于训练云端在线的感知、决策、控制模型,训练好的模型会通过定期OTA的方式将新的版本推送至车端进行部署,车端会基于新的软件版本处理,从而回传给云端更有价值的数据,形成迭代反馈;2)用于训练离线大模型,离线大模型也在对感知的世界进行了4D重建,随着模型能力不断提升,模型对于真实世界重建的准确度、精度持续提升,不断趋近于真值时,其可以被用作特斯拉自动标注的工具,其本质是“对照标尺”,当新的数据流进入到大模型后,只要通过与“标尺”比对就能快速完成特征识别,从而提高标注效率。如前文所述,2020年引入BEV视图时进入了自动标注的时代,针对每一个Clip标注时间由2019年的3.5hrs缩短至0.1hrs。
 
 
同时特斯拉做了许多数据安全的工作:1)来自于车端的数据一部分作为训练数据进入模型,还有一部分将验证数据集被保留,作为真值数据用于评判模型的能力;2)特斯拉在自动标注的基础上也保留了手工标注。对于自动标注的数据,工程师会不断进行数据抽检,对于被标记错的数据集,通过手工标注的方式进行修正。
 
总结来看,我们认为特斯拉的数据满足以下特点:大量、便宜、质量高且具备多样性,构成其最核心竞争壁垒:
 
大量:如前所述,累积售出450多万辆车在路上行驶为特斯拉贡献了持续不断的数据;其次随着算法能力升级,目前摄像头采集数据格式已经升级为视频,其中包含的信息量将较之前更加丰富;
 
便宜:特斯拉车主相当于特斯拉“免费外包车队”,帮助其采集路网等真实世界的数据,随着车辆的增加,获取某个长尾场景数据的概率变得更高,从逻辑上讲边际成本更低;其次特斯拉数据-模型训练的正反馈机制也在推动仿真能力的提升,进一步降低数据获取成本;

质量高:相较于手动在2D图像中标注,自动标注工具在4D空间中标注数据产生的质量更高;其次安全校验及手动标注的工作也在持续提高数据质量;

多元性:销量背后意味着用户多元性,保证了数据集的差异性;特斯拉只关注有价值的数据信息,比如在行程过程中大量顺利通过的道路数据对提高模型训练并不意义,可能还会产生一定回传成本,特斯拉可能会直接丢弃;仿真能力使特斯拉具备主动生产长尾数据的能力,从而补全数据种类。
 
根据特斯拉2022 AI Day上披露数据,特斯拉将这些有价值数据按照场景种类进行存储,训练数据集达到232K,验证数据集达到3.8K。
 
 
3.5.算力:自研芯片性能可期,投产Dojo应对潜在增长需求
 
处理如此庞大的数据,强大的算力支撑也非常重要。在自动驾驶方案中涉及云端与车端算力,其中云端算力主要用于训练大模型,包括感知、决策规划及控制算法模块,同时还需要训练离线大模型作为标注数据的工具以及进行仿真模拟训练,在训练模型时因为需要不断调整参数导致算力的需求非常大,而且对于并行算力的要求会较高;车端模型是对已经在云端完成训练的模型进行部署,模型参数已经固定,仅对摄像头等传感器采集的数据进行运算即可,对算力的消耗相对较小。
 
 
特斯拉芯片从采购转向自研,增强对硬件性能掌控力。在HW1.0时代,特斯拉采用了来自Mobileye的EyeQ系列芯片。进入HW2.0时代,特斯拉找到了英伟达作为Mobileye的替代,采用定制版的英伟达Drive PX2自动驾驶计算平台(由1颗Tegra Parker芯片和1颗Pascal架构GPU芯片构成)。后来又升级为HW2.5,增加了一颗Tegra Parker芯片。但无论是Mobileye还是英伟达,都无法满足特斯拉对于性能、研发进度、成本、功率方面的要求。而且随着硬件量产出货所推动的算力需求增长,芯片供应链安全对于特斯拉的重要性愈发凸显,2016年前AMD首席架构师Jim Keller加入特斯拉,任职Autopilot硬件工程师总裁,特斯拉开始走上芯片自研之路。
 
特斯拉2021年发布D1芯片及Dojo超级计算机:1)D1芯片:制程工艺是7nm,由台积电代工,设计参数为645平方毫米面积、500亿个晶体管、11英里的内部走线、400W TDP(Thermal Design Power热设计功耗,指正常工作环境的负载功耗),单颗芯片有354个节点,实现了超强算力和超高带宽;2)DOJO POD云端机柜:每个Dojo都集成了120个训练模块,单个训练模块包含25个D1芯片内置3000个D1芯片,拥有超过100万个训练节点,算力达到1.1EFLOP,相邻芯片之间延迟较低,配合特斯拉自创高宽带、低延迟的连接器,是世界上首屈一指的超级计算机。整体来看,特斯拉的芯片虽然距离英伟达仍有一定差距,但得益于自身业务体系对AI需求经验,其产品在AI训练应用上仍极具竞争力。
 
 
云端算力占用率较高,2023年7月正式投产Dojo。特斯拉目前使用的是基于英伟达芯片的超算集群,相当于14000块A100的算力。根据特斯拉首席工程师TimZaman对外表示,他们的计算集群仅有0.3%的空闲时间,其中84%的时间都在处理高优先级的任务,因此急需更多计算资源。2023年7月特斯拉Dojo正式投产,预计2024年10月特斯拉的算力总规模将达到100Exa-Flops,相当于30万块英伟达A100显卡的算力总和,约相当于26.7个商汤临港AIDC,商汤AIDC算力为3.74EFlops,投入资金规模为56亿。(资料来源:Tesla AI day、商汤公司公告)
 
 
在车端,以HW3.0提供144TOPs为主,预计未来将进一步提高算力。特斯拉硬件体系至今迭代四版,从2019年发布的HW 3.0使用的是特斯拉自研的FSD车端芯片,2019年上线的第一代FSD芯片由三星代工,制程为14nm,2023年已经升级为7nm芯片。算力方面,单颗芯片72TOPs,2颗芯片算力共144TOPS。对比国内自动驾驶车企的算力芯片,目前较为主流的是NVIDIA Orin芯片,其单芯片算力已经达到250TOPS,而且如果未来决策规划模型化,可能占用更多的算力,因此硬件版本升级可能会给到更多的算力,来保证一定的硬件性能冗余以支持后续模型能力的迭代升级。
 


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

相关文章


用户评论

游客

自律公约

所有评论


资讯排行

  • 48h
  • 7天


专题推荐

more

第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)



耗时 153ms