首页 > 专栏

【专栏】人形机器人产业链跟踪——AI专题报告之十二(中)

虚拟人焦娟 · 零壹财经 2023-09-01 14:39:14 阅读:14458

关键词:AI人形机器人奇迹人智能科技汽车

作者 | 焦娟 王利慧 来源 | 零壹财经专栏 4 人形机器人产业链 4.1.Optimus:以FSD体系为基础,指向人形对软硬件适配调整 与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是: 感知系统,包括摄像头、麦克风、距离感应器、压力感应器...

作者 | 焦娟 王利慧 来源 | 零壹财经专栏
 
4
人形机器人产业链
 
4.1.Optimus:以FSD体系为基础,指向人形对软硬件适配调整
 
与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是:
 
感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,需要解决精度等问题;

运算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据少、虚拟世界与物理世界存在适配问题;

驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等;

末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力度、灵活性等方面;
 
能源供应系统:主要是电池供应。
 
 
依据上述的模块,我们对特斯拉2022年AI Day及2023年投资者大会上公布的关于人形机器人Optimus的参数进行汇总梳理如下:
 
人形机器人重量为73kg,几乎与成年人重量相当,在静坐时的功率为100W,快走时的功耗为500W;能源供应依靠电池,电池容量2.3kWh容量,支持52V电压,内置电子电气元件的一体单元。Optimus的大脑由单块FSD Chip组成,若参照自动驾驶HW 3.0芯片则预计算力为72TOPS。
 
 
在感知算法层面,人形机器人依赖于自动驾驶FSD算法,也采用了纯视觉感知方案,共配置有3颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后进行3D重建,对于空间中的物体通过占用网络进行识别输出。对比自动驾驶中占用网络,因为室内环境小目标比较多,我们可以看出机器人场景的单元格更加稠密。
 
 
视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。
 
 
影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在执行操作时的发力大小、发力方向等信息,模拟人的执行动作;另一种方式是类似于比下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下做出动作决策,与人的动作进行对比,从而获得差异数据用于训练机器人模型更类人。
 
 
运动控制:与自动驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同点在于,机器人给出运动轨迹之后,还需要根据轨迹预测脚掌的落地位置。
 
 
平衡控制:在波士顿动力的双足机器人中,推倒测试是常见的一种测试平衡的机制。类似地,特斯拉人形机器人也做了相关测试,以测试机器人对外界环境的躲避及运动平衡等。
 


硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。Tesla Bot基于特斯拉汽车的工程技术,并且针对人形机器人做了针对性的调整,例如减少零部件的复杂度等。特斯拉在参考生物学结构的同时,还通过软硬件配合的方式,让机器人进行多模态的学习,对机械结构进行扭矩等力学方面的进行微调。(资料来源:特斯拉、新出行)目前整个躯干拥有200+DoF自由度,手部自由度达到27DoF。
 
灵巧手:2022年AI Day上公布的Optimus光手掌区域就用了6个驱动执行器,具有11档的自由度,拥有自适应的抓握角度、20磅(9公斤)负荷、工具使用能力、小物件精准抓握能力等等。
 
 
膝关节:特斯拉希望Optimus的关节希望尽量复刻生物学上的非线性逻辑,也就是贴合膝关节直立到完全弯曲时的受力曲线。为此,Optimus的膝关节使用了类似于平面四杆机构的设计,最终发力效果会更接近人类。
 
 
电机驱动:下图橙色部分均为Optimus的电机驱动器,相当于人的“肌肉“,也都是特斯拉完全自研的。考虑到机器人运动的灵活度,Optimus具有较多的自由度,因此其单独的电机数量远远超过车的电机。
 
 
特斯拉希望尽可能地减少执行器的种类,降低软件标定难度,因此特斯拉举了28种人类常见活动,比如抬举手臂、弯曲右膝等,通过分析这些活动反馈的云数据,找出各类运动的相对共同点,然后就可以尽量减少专门设计执行器的种类,基于以上原因最终设计了6种各自独特的执行器。
 
 
4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快
 
4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系
 
在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。车的电子电器架构经历了从分布式走向集中式的架构。汽车作为百年工业,已经形成了非常标准的零部件体系,但是其是分布式架构,相当于零部件的控制“各自为政”,但是到智能化阶段,分布式架构使信号传输有很多的问题,使模型计算的能力无法快速下达到执行器,因此逐步走向集中式架构,特斯拉2012年开始交付Model S,至2017年交付Model 3才全面开启电子电气架构的变革。不同于整车成熟的产品体现,人形机器人是过去并不存在产品,无须破旧再立新,这使得特斯拉可以完全根据自身对产品的定义进行零部件设计及选型,对产品的形态、研发量产节奏有了更强的掌控力。
 
 
得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为Optimus挑选尽可能保证成本、效率的原材料。根据我们对产业的调研,特斯拉在选择人形机器人零部件的供应商时会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花智控系特斯拉整车供应商,根据公司公告,公司已经在对机器人机电执行器方面展开持续研究和产品开发工作。
 
4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系
 
人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾驶模型及数据体系。我们认为自动驾驶为人形机器人搭好了“场”,人形机器人可以复用的部分包括:

1)感知模块的4D重建、占用网络;

2)数据及自动标注工具;

3)仿真模拟环境;

4)共享强大的云端算力设施及芯片能力。

在以上可复用的部分,只需要针对人形机器人场景采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达200多个自由度导致其规控更加复杂,但是自动驾驶所积累的工作是地基,0-1的工作很难,而扎实的基础将使1-10的工作加速迭代。根据2023年股东大会上马斯克透露信息,特斯拉已经打通了FSD和机器人的底层模块,实现了一定程度的算法复用。
 
 
自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶方案使特斯拉已经积累了智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、解决问题”的工程化经验,能够加速机器人正向研发过程。体现在:

1)如前文所述的九头网络架构,在一定程度上,人形机器人与自动驾驶可以共用感知的backbone,所处理的任务主要体现在neck、head层的差异,而在处理尘雾等场景时积累的经验能够帮助机器人迭代;

2)在规控、安全性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为Optimus编写跌倒测试软件。
 
 
4.2.3.大模型加速智能驾驶方案迭代,机器人大模型领域成果频出
 
以ChatGPT、AIGC为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。马斯克此前在社交网络称将推出FSDv12.0端到端版本,并于近日透露团队已经在对规控模块进行AI化,其是完全自动驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。得益于大模型能力,国内车企也在积极推动BEV+Transformer这套无图方案在量产车上的落地,并给出了无图方案扩城的规划,比如小鹏提出XNGP将在下半年拓展到全国50城。可以预见,自动驾驶方案的突破将大大推动人形机器人方案的实现。
 
 
以李飞飞具身智能研究、谷歌RT-2为代表,机器人大模型领域成果频出。李飞飞团队研究实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。7月29日,纽约时报记者在谷歌实验室看到新推出的Rt-2模型驱动的机器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝的动物”,机器人抓起了恐龙。
 
以上的突破主要来自于语言大模型的助力,具体来看体现在:

增强对于环境感知的能力
 
首先,语言大模型能够帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。

其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,能够提高对环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型)将整个路口用若干格子表示;自车在起始点坐标为其赋任务指示token‘start’,路标检测信息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网络。
 
 
多模态对齐推动端到端方案落地
 
加速自动驾驶与人形机器人方案端到端的实现。基于前述介绍,我们把“感知、决策规划、运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是参考人在开车时的模式,我们看到外界环境做出反应时并不会反映静态路网、运动轨迹,而是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个大模型,我们认为它其实也体现了不同模态数据的对齐。我们认为特斯拉提出的端到端的方案是本质上就是在完成视觉图像输入到方向盘转向及加减速之间的对齐。
 
类似的,谷歌的RT-2模型本质上实现“语言-视觉-动作”三个模态的对齐。谷歌RT-1是个视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。而RT-2通过将VLM预训练与机器人数据相结合,直接控制机器人,形成强大的视觉-语言-动作(VLA)模型,使机器人可以进行推理、问题解决并解释信息,以在真实世界中执行各种任务,其或将成为构建通用机器人的一把钥匙。
 
 
因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前自动驾驶的产业导入速度更快。

4.3.开放场景人形机器人相较于自动驾驶面对更多挑战

4.3.1.特斯拉缺乏语言大模型能力,需要补齐语料数据


如前所述,李飞飞具身智能、谷歌RT-2的成果依赖于语言大模型的推动,包括理解人机交互指令,以及基于语义理解识别家庭场景中种类繁多的物体,还需要对不同物体背后的功能、重量、硬度等属性进行了解,才能做出决策规划,比如是否需要避障等。而语言大模型的训练需要大规模的语料数据,谷歌得益于搜索引擎积累了大量优质的语料数据,而特斯拉在过去缺乏相关语料资源的积累,因此仍需要一定的时间对其进行补充。我们认为特斯拉收购Twitter的原因与之有关,将获得大量的语料数据帮助提升人形机器人的能力。

4.3.2.人形机器人运动控制具有极大难度
 
首先,机器人200多个自由度,规划求解可能会导致计算量暴增。根据莫拉维克悖论,对计算机而言实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要巨大的计算资源,其背后的原因是求解难度非常大。我们在前面介绍自动驾驶决策控制时解释了车的算法是高维的非凸问题,其实车上只有6个自由度,分别是表示位置坐标的x、y、z、时间t、速度、加速度,而人形机器人所对应的机械原理会更加复杂和精细,全身有200多个自由度,这意味着在优化求解时计算量将暴增。而且机器人在更开放的场域,可能面对更强的安全约束条件,所以如何在计算时能够使其收敛至最优解也会面临较多的挑战。
 
假设决策规划通过模型化实现,我们认为如果采用影子模式进行模型训练,则还需要进行人体运动控制的数据,比如握力方向、握力大小等,因此为了训练人形机器人达到更加类人的效果,特斯拉还需要做大量的数据采集工作或者在仿真环境下进行模拟仿真。
 
第二,灵活性要求动态计算,对软硬件响应速度及配合提出较高要求。人形机器人如果想要达到人类操作的灵活性,所需要做出的运动控制都是实时且连续的,这就意味着在极短的时间内发生了位移,就需要感知算法在动态的情况下进行连续计算,计算时间差缩短对硬件的灵敏度、软件计算速度都提出很高的要求。
 
第三,硬件降本产生的零部件调整,与软件算法稳定性之间存在平衡。2022年AI day上马斯克提出人形机器人未来的售价将为2万美金,我们预计仍需要一段时间完成硬件的降本,因此目前部分结构件仍处于正向研发阶段,以保证达到降本的需求。但由于软硬件方案是相互耦合的,硬件降本导致零部件方案变化,会导致人形机器人算法跟着调整,影响软件方案的开发节奏;其次,由于软件算法与硬件的稳定性与精度有很高的要求,这在一定程度上会推高硬件成本,因此研发的过程就需要不断在算法稳定性与硬件降本间进行平衡,对工程师团队带来一定的挑战。
 
4.3.3.对特斯拉自研算力提出更高的要求

如前所述,自动驾驶汽车出货量增长使得当前特斯拉超算中心达到了较高的占用,而人形机器人的感知、规控模型均比自动驾驶更复杂,可能在训练期间消耗更多的算力,因此对特斯拉目前的超算中心的算力提出了更多要求。在各业务均处于算力需求快速增长的情况下,若一旦出现机器人业务与自动驾驶业务的算力冲突,考虑到自动驾驶业务更成熟,存在量产出货需求,优先自动驾驶业务对算力资源的需求,则可能影响人形机器人算法能力的迭代,进而拖慢整体开发进展。目前Dojo处于投产建设中,我们判断其投入使用的时间节点也对人形机器人业务有较重要的影响。
 
总结以上对于特斯拉人形机器人所面临的挑战,我们判断人形机器人的难度更高,距离产品成熟仍需要一定的周期,因此我们认为人形机器人的产业链导入也将经历智能度逐步升级的过程。自动驾驶通常分成6个级别,从L0、L1一直到最高L5,等级越高智能化程度越高。L0只提供部分预警,L5则是完全状态下的汽车自动驾驶。质的变化的出现在L3级别,在这个状态下,驾驶员在驾驶位上可以聊天看视频,但是不能睡着,车辆遇到问题报警,驾驶员需要在规定时间内接管车辆。目前自动驾驶行业正处于从L2向L3迈进的阶段。类似于自动驾驶,我们认为人形机器人可能会先在一些相对标准、简单、狭窄的场景中落地,逐步推向通用型的人形机器人。
 


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

相关文章


用户评论

游客

自律公约

所有评论


资讯排行

  • 48h
  • 7天


专题推荐

more

第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)



耗时 196ms