本文重写:特斯拉近期经历大规模裁员,引发外界对其未来走向的猜测。值得注意的是,特斯拉最近在其招聘页面上发布了近20个Autopilot团队的新职位,这似乎预示着公司的裁员浪潮可能即将结束。这些新职位专注于特斯拉FSD软件的研发,并且它们的办公地点都在加州帕洛阿尔托市。从这些职位的名称来看,可以推断大多数新的Autopilot团队成员将在未来致力于特斯拉自动驾驶软件的发展。

特斯拉还发布了招聘机器学习工程师(三维计算机视觉,自动驾驶)的职位信息,这暗示了特斯拉FSD的下一步发展方向。该职位的职责包括但不限于:
受Autopilot安全性调查等因素影响 特斯拉股价大跌7.46%
暴涨的特斯拉股价突然跳水。截至美东时间2月24日收盘,特斯拉股价报收833.79美元/股,大跌7.46%。
有观点认为,由于国产Model3的交付有所延缓,引发了资本市场对特斯拉的抛售。2月4日,特斯拉公司全球副总裁陶琳在微博上回复用户关于“疫情是否会影响国产Model3的交付进度”时表示,原定春节后2月初的新车交付会暂缓,目前正在制定各种计划。
不过,特斯拉上海超级工厂已于2月20日全面恢复生产,一辆辆刚下线的国产Model3从厂区内被运出。除加快复工生产外,特斯拉还陆续恢复国产Model3的交付工作。
特斯拉CFO扎克·科恩霍恩曾公开表示,由于上海超级工厂不久前刚刚开始生产工作,所以并不担心本次停工会对特斯拉的财务造成太显著影响。
事实上,投资者除了除此之外,还担心美国国家交通安全管理局(NTSB)即将公布的对Autopilot相关撞车事故的最终调查结果。
NTSB此前建议,包括特斯拉Autopilot、凯迪拉克超级巡航、日产ProPilot等在内的市面上所有拥有自动驾驶辅助功能的系统都要进行改变,以确保司机在使用时集中注意力,并防止滥用或误用这项技术。据了解,NTSB计划于近日在华盛顿特区公布这一调查报告。
除了上述两个因素,特斯拉股价跳水也与美股大盘调整有关。在上周五美股整体调整的背景下,阿里巴巴(BABA)、京东(JD)等重要中概股均出现了跌幅超过2.5%的调整,特斯拉(TSLA)则上涨0.18%。
当时,MillerTabak策略师分析认为,市场回调的条件已经成熟,随着大盘的调整,很快苹果()、特斯拉()和英伟达()等炙手可热的动量股可能会回调15%至20%。
虽然特斯拉的股价下跌与多个因素有关,不过,特斯拉的股票表现一直与中国市场的动态息息相关。2019年6月,受产能危机、利润下滑、不断裁员等一些列负面因素影响,特斯拉股价曾一度跌至177美元/股。
不过,受中国市场销量攀升以及上海超级工厂成功交付等因素影响,特斯拉的股价随即不断攀升。自2020年初至美东时间2月24日,特斯拉股价的累计涨幅已经超过99%,总市值已经超过1500亿美元。
目前,很多人对于特斯拉股价的“疯狂”持保留态度。2月13日,在DailyJournal年度大会上,伯克希尔哈撒韦副主席、巴菲特的老搭档查理·芒格被问如何看待特斯拉近期股价大涨时表示:“我有两个想法,我绝不会买特斯拉的股票,也绝不会做空。我认为马斯克很特别,他可能高估了自己,但也可能不会一直都是错的。”
全面重写Autopilot,特斯拉自动驾驶的升维革命
作者/陈念航
编辑/王德芙
出品/汽车之心
在刚过去的8月,马斯克在推特上公布了关于Autopilot以及FSD的两条重要消息:
AP团队正对软件的底层代码进行重写和深度神经网络重构;全新的训练计算机?Dojo?正在开发中。
「重写AP」,是今年马斯克在推特上不断提及的一项重要行动。
在回应推友提问时,马斯克会时不时披露AP将有的新功能,比如:
对路面上的隆起和坑洞(bumps&patholes)的识别;对环岛路况(roundabouts)的处理等等。
特斯拉对AP的全面重写,包括了对数据标注、训练、推理全流程的重构。
而基于新架构的FSD将不再是渐进式的优化,而是一次「量子式跃升」(马斯克原文是quantumleap)。
马斯克在7月的世界人工智能大会上表示「有信心在今年完成开发L5级自动驾驶的基本功能」,马斯克能够实现他的承诺吗?
特斯拉为什么要在这个阶段对AP软件进行重写?重写AP到底要重写些什么呢?作为当下市面上量产最强的自动驾驶系统,AP走向何方,FSD何时到来?
1、特斯拉AP两大新进展
身兼特斯拉AP团队的最高负责人,马斯克经常充当着软件测试员的角色。
根据马斯克在推特上透露,他本人经常开着搭载FSD最新测试版本的特斯拉上下班,马斯克称在他使用系统的过程中,几乎不需要人工接管。
基于此,他乐观估计,最快在6-10周后(也就是10月-11月份),就可以向小规模地向用户推送FSD测试版本。
作为重写AP的一部分,马斯克还向外界介绍了其全新的用于神经网络(NN)训练的超级计算机Dojo。
Dojo在日语中意为「道场」,现在它成为了特斯拉训练数据的「道场」。
Dojo将专门用于大规模的图像和视频数据处理,其浮点运算能力达到了exaflop级别,也就是每秒运算百亿亿次。正因此,马斯克称Dojo如野兽一般。
需要注意的是,Dojo计算机将配合无监督学习算法(unsupervisedlearning),来减少特斯拉对于数据人工标注的工作量,这样来帮助其数据训练效率实现指数级提升。
马斯克还在推特上发布英雄帖,为自家的AI和芯片团队招人。
目前,Dojo计算机仍在开发中,从V1.0开始,大约一年后才会有成果。
有了全新的AP软件架构以及强大的数据训练计算机Dojo,难怪马斯克会对其FSD的落地进展如此自信。
但话说回来,特斯拉为什么要在这个阶段对AP软件进行重写?还是以这样一种推倒重来的方式。
2、为什么特斯拉要重写AP?
现在的AP已经碰到了性能瓶颈,必须要进行升维革命,否则难有大的突破。
马斯克用了一个术语来表述这个问题,他认为过去AP被困在一个局部最大值(LocalMaximum)里面,要向上突破已经非常困难了。
其中一个很关键的问题在于,原有AP软件架构下,其处理的数据都是不含有时间坐标的2D图像数据。
再想往上去处理3D甚至4D(加上时间维度)的数据,实现从图像级处理到视频级处理的跃迁,AP固有的软件和训练网络难以胜任。
关于引入4D数据带来的影响,一位来自国内自动驾驶公司的工程师向汽车之心分析:
总之,加入时间维度,很大程度上是提高系统对整体场景的理解。」
AP要再往前走,必须进行革命,所以特斯拉这才决定重写AP。
另一方面,因为数据转变成4D,信息量更丰富,整个数据的容量也会变大,这也给特斯拉AP现有的用于深度神经网络训练的基础设施带来了挑战,所以就有了Dojo。
所以,AP为了实现性能和功能上更大的突破,倒逼其对AP基础代码以及训练深度神经网络的基础设施进行重构。
这样工作量庞大的复杂工程也成为FSD迟迟推出不了落地版本的重要原因。
除了在车载软件和训练服务器端变革,特斯拉在车载硬件端也做好了准备,就是其自研的FSD芯片。
FSD已经在去年4月份开始量产并搭载在特斯拉的车端。
一位对熟悉特斯拉的业内人士表示:
「在FSD发布后的一段时间里,特斯拉AP团队仍是基于HW2.x的硬件(英伟达DrivePX平台)进行功能开发,直到今年年初,特斯拉才开始全面转向基于FSD芯片的软件开发。」
相较于英伟达DrivePX平台,特斯拉FSD芯片在基础算力和深度神经网络推理效率方面都有革命性提升,而且在视觉处理性能上,FSD相较于英伟达的芯片有更大的优势。
所以趁着这一次特斯拉重写AP,整个系统需要处理的数据升维到了4D,对计算硬件的要求指数级提高,FSD的强大性能便终于有了广阔的用武之地。
引入FSD芯片的AP在性能上会有多大提升?
马斯克此前在接受Youtube视频博主采访时透露过:
「如果特斯拉全车的8颗摄像头以36帧/秒的速度运行(性能拉满),软件则会基于FSD芯片的算力同步进行3D标注(2D图像+深度信息),这会使标注效率提升3倍,准确性也会大幅提升。」
特斯拉重写AP,除了马斯克口中所说的要突破「LocalMaximun」以及挖掘FSD芯片的极限性能这两方面的原因之外,还有一种可能性存在。
硅谷一位资深自动驾驶工程师告诉汽车之心:
「特斯拉现有的AP系统和后续要推出的FSD是两套独立开发的系统。
前者的架构是针对于L2/L3级自动驾驶,而FSD的目标从一开始就是L4/L5级自动驾驶。因此,两套系统在架构上有本质的差异,两者差着一个代际。」
后续,随着技术不断进步,FSD也走向成熟,特斯拉决心把FSD和AP的框架进行整合。
但问题是,两个系统中有些模块可以融合,但是有些模块是融合不了的,毕竟一个为L2开发的系统很难直接演变成L4系统。
所以特斯拉AP团队要改写AP软件的框架和代码,以实现两个系统间的完美兼容,这样的话,后续才能以统一的版本推送给购买了全自动驾驶选装包的特斯拉车主。
实际上,我们也能从AP这些年的功能更新中发现一些蛛丝马迹。
2017年3月,推送自动泊车和自动辅助变道功能;2018年10月,推送自动辅助导航驾驶(NoA)功能;2019年9月,推送智能召唤(SmartSummon);2020年4月,推送识别交通信号灯和停车标志并作出反应(海外先行)。
AP还在最新的迭代过程中更新了一些令人惊喜的小功能:
比如在城市工况施工区域,没有车道线的情况下,车身两侧皆为锥形桶,AP能做到以锥形桶为依据实时绘制车道线。
AP系统还能检测到小动物并及时进行避让,不过特斯拉是把小动物一律识别成人后才做出相应的操作。
基本上,在特斯拉官网上标明的FSD完全自动驾驶功能,还剩下一项最难的、也最能代表L4级自动驾驶能力的更新:在城市街道中进行自动辅助驾驶。
为了实现这一难度最大的更新,特斯拉给出的最优解就是重写AP。
基于以上分析,特斯拉重写AP的原因便包括突破「LocalMaximun」、挖掘FSD芯片的极限性能以及将系统能力从L2进化至L4。
4、特斯拉重写AP,是重写什么?
先来看看特斯拉AP现在最新的AI软件堆栈是怎么样的:
最底层的是数据、GPU集群以及Dojo计算集群,这一层主要进行数据采集、标注和训练,生成算法模型;往上走就是采用深度神经网络对模型进行分布式训练;再往上走就是用损失函数对模型进行评估;在评估层之上,是云端推理层和车端FSD芯片推理层,到这一层,意味着算法模型走完了大部分流程,然后就是部署到车端;在车端,特斯拉通过影子模式(ShadowMode)将这些算法模型与人类驾驶行为进行比对,检测是否存在异常。
这样的从数据采集到算法部署的闭环,目的就是让系统性能不断迭代,更加优秀。
在这个闭环当中,涉及到数据集、模型训练神经网络、云端和车端推理算法等等要素。
所以,当数据形式从二维的图像数据(2D)转换成四维的视频级数据(4D)后,相应的神经网络和推理算法都需要进行重写。
据马斯克透露,特斯拉AP新版本的深度神经网络会将包括感知、路径规划、目标识别等所有子神经网络综合于一体。
特斯拉AI高级总监AndrejKarpathy在此前的一次演讲中表示:
「我们无法让每一个任务都享有单独的神经网络运算,因为同时处理的任务数实在太多,我们只能把一些运算分摊到共享骨干网络上」。
AndrejKarpathy将这一骨干网络称为?HydraNets(Hydra意为九头蛇),意思就是有一个主干网络(Backbone),在这个网络上有多个不同的出口(Head)来做应用,然后输出各自的结果。
在特斯拉AP最新的AI软件堆栈中,有一个最值得关注的部分就是Dojo训练集群,这个集群可以处理海量的图像、视频数据。
引入这一训练计算机,一方面是为了满足特斯拉AP系统此后的4D视频数据处理需求。
另一方面,特斯拉在全球有超过82万辆搭载HW2.0/3.0硬件的车辆每天在道路上行驶,可以采集海量的数据用于AP的训练,而如此海量的数据,必然需要具备强大计算性能计算机来进行处理。
Dojo还有一个特别之处在于,它可以与无监督学习进行配合。
所谓无监督学习,就是无需人工对训练数据集进行标注,系统可以自行根据样本间的统计规律对样本集进行分析,常见任务如聚类等。
例如无监督学习在不给任何额外提示的情况下,仅依据一定数量的「狗」的图片特征,将「狗」的图片从大量的各种各样的图片中将区分出来。
有了无监督学习技术加持的Dojo计算机,便能以极低的成本对数据进行自动标注和训练,实现算法性能的指数级提高。
不过,用上了无监督学习技术的特斯拉,依然有一支大约500人规模的数据标注团队。
因为在一些初始神经网络模型的搭建过程中,采用人工标注的方式置信度更高。而且,特斯拉并未大规模采用无监督学习技术,现在都还处在尝鲜阶段。
那么,Dojo计算机上搭载的会是谁家的芯片呢?
目前特斯拉自研的FSD芯片属于推理芯片,用于Dojo计算机的芯片属于训练芯片。
有业内人士向我们分析表示,Dojo所采用的芯片应该是FSD芯片的扩展版本。
这也是为什么马斯克在为自家AI和芯片团队招人时,特意公布了其在研发的Dojo计算机的情况,大概率要招的人就是为了研发用于Dojo计算机的芯片。
5、特斯拉FSD走向何方
无论是大力投入资源重写AP基础代码和深度神经网络,还是广纳贤才开发性能强大的数据训练计算机Dojo,都体现了特斯拉要先人一步搞定完全自动驾驶的决心。
特斯拉拥有庞大规模的数据采集车队,也聚集了300多位全球顶尖的自动驾驶和深度学习方面的软硬件研发人才,从数据到算法到商业化,特斯拉在自动驾驶领域有着其他厂商无法比拟的优势。
在这些优势的加持之下,特斯拉仍然迟迟无法量产真正意义上的完全自动驾驶功能,那些买了FSD选装包的特斯拉用户着急,马斯克则更急。
所有人都在期待着重写完成后的AP系统能真正进化至FSD版本,而这一切都要等到今年年底见真章。
在重写AP的同时,特斯拉也没有停止在硬件层面的持续研发。
据媒体报道,特斯拉正与博通合作研发新款?HW4.0自动驾驶芯片,其性能比FSD还要强大?3倍,计划明年第四季度进行大规模量产,由台积电负责生产。
特斯拉在AP层面,是一个接一个的大动作,而这一切动作都有一个统一的目标:更优秀的AP、更强大的FSD。
即使现在其表现还不尽如人意,但未来值得期待。
清华邓志东教授:大模型助力自动驾驶特斯拉至少领先行业三年
自动驾驶加速发展,产业链将洗牌。
作者|Juice
编辑|志豪
自动驾驶在走过低谷之后,正开始重新攀登高峰。
从去年开始,国内自动驾驶市场的整体表现并不算好,大额融资变得寥寥,而技术上的突破也并不明显,整个行业走向了低谷。
但今年,这一趋势发生了很大的变化。
从政策角度来讲,工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》,正式对L3/L4自动驾驶的准入与上路进行了具体的规范,为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。
▲《关于开展智能网联汽车准入和上路通行试点工作的通知》
而从技术层面来看,以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。传统的小模型、小数据弱人工智能方法正被换挡,通过大模型来布局自动驾驶的路径越发明显。
其中最典型的玩家当属特斯拉,通过端到端的大模型技术,其在自动驾驶方面的最新产品FSDV12在海外的表现已经非常稳定了,引进国内也指日可待,届时,特斯拉在自动驾驶领域可能会再次化身为鲶鱼,搅起新的风暴。
▲特斯拉FSD Beta在不同环境下的示意图
从用户接受度的维度来看,现阶段,部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了,完成了初步的用户教育,这也为自动驾驶的真正规模化落地提供了可能性。
可以说自动驾驶的发展正进入一波全新的发展周期。
而在大好形势下,我们也应该清晰地认识到,自动驾驶的发展也还有一些难题需要解决,比如说大模型如何为自动驾驶赋能?放开L3/L4准入政策后,怎样才能真正实现产品落地?多种技术路线之争应该如何决断?
如果不能很好地回答这些问题,那对于自动驾驶的发展来说仍然会产生不小的影响。为了更好得到这些问题的答案,车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院视觉智能研究中心主任邓志东教授。
邓志东教授是国内最早一批开始从事人工智能研究的专家之一,同时在2009年就开始了自动驾驶的研发与实践,也属于最早的一批研究者,因此在这两方面无疑有着足够的积累和发言权。
另外预告一下,邓志东教授将参加12月19日由智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳发起主办的2023全球自动驾驶峰会,并在主会场开幕式带来主题报告《大型视觉语言模型助力自动驾驶产业落地》。另外,李弘扬、李志琦等学者以及来自智行者、元戎启行、Nullmax等企业的众多大咖也已确认参会演讲或参与圆桌讨论。欢迎大家报名,线下参会交流。
ChatGPT是分水岭 人工智能发展提速
在人工智能领域,邓志东教授绝对算得上是老资历了,1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。
当时研究的主要是人工神经网络与非线性系统学等,这些在当时还处在非常早期的阶段,人工神经网络模型还在缓慢的量变过程中,没有达到质变。
人工智能产业从2012年开始起步,十几年间,真正落地的产品并不算多,一些落地的产品主要为人脸识别、机器翻译与语音识别等,但机器翻译的“机器”味道似乎还比较浓,整个行业并未闭环一个良好的产业逻辑。
2022年,很多行业内的从业人员对于(弱)人工智能产业能否真正落地产生了怀疑。
而ChatGPT无疑是一个划时代的产品,大模型在某种意义上把人工智能这个产业又重新救活了。
▲ChatGPT聊天页面
不过大模型并不算是一个全新的概念。预训练与微调的范式,2015年前后就出现了,2017年Transformer问世后就开始有了大模型。事实上,2020年出现了两个重要的AI进展,一个是OpenAI推出的GPT-3,另一个则是谷歌的AlphaFold2,这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。
事实也确实如此。AlphaFold 2就成为了今年诺贝尔奖的候选成果之一,虽然最终没有获奖,但是这一成果和GPT-3基础大模型之重要性,可谓不言而喻。
这些大型语言模型与以往最大的不同之处在于,已开始出现了一些认知能力,这是此前不曾有过的,人工智能确实更聪明了。从目前的视角回头来看,2022年11月30日ChatGPT惊艳问世之前的人工智能十年,应该叫做弱人工智能时代,当时一个模型只能解决一个任务。
当时是小数据、小模型,通常需要标签进行完全的监督学习,而且也还没有摆脱机器性。
现在最大的不同就是模拟并构建了人类语言模型与世界知识模型,开始运用人类的语言思维来理解和学习了。这是一个非常大的突破,语言实际上属于高级文明,不仅可帮助人类沟通交流,而且还便于记载文明,促进人类知识传承,让下一代人站在人类知识总和的肩膀上前行。
相比于人类,机器对人类知识的传承效率更高,可以在短短数年时间内学完人类整个一般性的文本知识,甚至还能记忆得更加准确。
大模型的发展离不开Transformer的出现,2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。
▲八位在谷歌工程师率先提出Transformer
邓志东教授认为,Transformer的诞生并不是突然出现的,当时行业内已有很多人都在研究LSTM模型的注意力机制,包括怎么使用多层的编码器,怎么使用多个解码器层,怎么去做隐含的特征表达等等,实际已经有了Transformer的雏形。
但是这样的突破性创新或许只能出现在巨头企业里,原因是相比于LSTM,Transformer更加复杂“冗余”了,这就需要更多的GPU算力,显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。
不过,Transformer诞生之初还仅是为了做机器翻译,后来才开始用来做文本语言大模型。OpenAI在2015年12月正式成立,初心就是要实现通用人工智能(AGI),而这一使命或愿景也是十分大胆的,此前极少有人敢提及这一观点。
▲OpenAI初始成员
实际上,OpenAI的核心团队都是硅谷非常成功的人士,新的阶段有了更加宏大的目标。
OpenAI早期并没有做出什么重要的成果,回过头去看,初期的GPT-1和GPT-2都没有太大的意义,不具有明显的优势,直到GPT-3的出现。
这主要跟模型的架构有关系,BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强,但是生成能力相对较差,反过来,GPT等解码器架构的模型生成能力比较强,但阅读理解能力比较差,OpenAI正是选择了后一种技术路线。
后来通过Transformer神经网络规模的不断增加,特别是与GPU算力的交替跃升之后,才通过大型语言模型的自监督学习与构建,获得了非常大的性能提升。
随着算力和数据的不断扩增,人工智能的能力也在不断提升。现在GPT-4 Turbo甚至已经可以开始利用外部工具了,包括可以调用很多Action来完成任务,这也是一个非常大的突破。
▲OpenAI CEO山姆·奥尔特曼发布GPT-4 Turbo
但也应该明确的一点是,通用人工智能的发展还刚刚拉开序幕,一切才刚刚开始。
从这个角度来看,我们正处在一个非常幸运的时代,还有大量机会见证通用人工智能更多的发展变化。
大模型赋能智能驾驶 特斯拉是先行者
从仅十年人工智能的发展角度来看,有三个人的作用非常突出,一个是图灵奖得主杰弗里·辛顿,另外两个则是辛顿的博士生,一个是前一段时间OpenAI“政变”的核心人物伊利亚·苏茨克维(Ilya Sutskever),另一个则是亚历克斯·克里切夫斯基(Alex Krizhevsky)。AlexNet就是以后者的名字命名的,而伊利亚作为OpenAI的联合创始人与首席科学家,则在GPT的发展过程中做出了很大的贡献。
除此之外,特斯拉AI与Autopilot 视觉主管,斯坦福李飞飞教授的博士生Andrej Karpathy,曾是OpenAI的创始成员及研究员之一,2017年至2022年则成为特斯拉人工智能与自动驾驶的灵魂人物。
▲Andrej Karpathy(左)与马斯克(右)在特斯拉AI DAY上演讲
Karpathy在特斯拉负责人工智能与AutoPilot期间,于2020年主持将特斯拉EAP的所有底层代码都进行了Transformer重写,这与他的OpenAI工作经历不无关系。
也是在那个时候,马斯克才正式对外喊出了要推出FSDBeta。
所以特斯拉较早就知道要用大模型来落地自动驾驶。为了更好地支撑多模态大模型的发展,特斯拉还专门研发了Dojo超算,也购置了大量的A100。
▲Dojo超算机柜
目前人类已经进入到了互联网和移动互联网时代,每天都有海量的数据涌现,因此必须要采用自监督或者无监督的学习方法,这就对数据本身的质量具有非常之高的要求。
而特斯拉既是一家人工智能算法与算力公司,也是一家自动驾驶公司,更是一家主机厂,不但具有足够多的数据,也拥有足够强的算力支撑,并且已经在大模型算法方向上走了较长时间了。
BEV+Transformer算法的使用,不用激光雷达也可以进行纵向距离的测算与补全,这也是一个创新性的做法。
大型语言模型的使用对于自动驾驶的性能提升非常明显,例如,通过视觉语言大模型就可以直接阅读理解道路交通场景,并生成详细的文本描述。
当大模型人工智能获得了道路交通场景的感知能力之后,再配合类似于Q*之类的深度强化学习算法进行决策与规控,特别是利用多模态大型语言模型进行端到端的整体贯通之后,甚至直接通过交互就可进行智能体学习,这就和人一样,只要经过一些驾驶技能的培训与操练就能够上路了。
目前产业界和学术圈对于特斯拉FSDV12都很期待,这一版本正是用彻底的端到端思路来实现高阶智驾的,跟人类一样,输入是不断涌入的图像帧视频,输出就直接是转向、制动与加速这三个模拟量。
这个过程中会存在较多的问题,例如中间的感知、预测、决策与规控过程其实是不透明的,另外就是如何处理边缘事件?现在看来,特斯拉可能通过视觉大模型与超级算力有效地解决了后面这个问题。这可能是因为他们已拥有了足够多的高质量训练数据,或多模态大模型出现了超强的零样本泛化能力。
另外特斯拉已经从2020年就开始做这个事情了,而且作为头部造车新势力,也积累了世界上最多的数据,而国内则在今年3月之后才开始加速布局,中间的差距至少有三年,所以在短时间内很难去超越特斯拉。
▲特斯拉基于视觉数据构建3D空间
国内的智驾玩家中,华为投入了大量的人力与资源进去,技术扎实,目前走得比较靠前。而网络、<a href=target=_blank