在一篇关于特斯拉CEO埃隆・马斯克(Elon Musk)所做预测的报道中,IT之家网友以线索的形式投递了这一信息,激发了关于人工智能(AI)发展的热烈讨论。根据4月9日的消息,马斯克在接受挪威主权财富基金首席执行官Nicolai Tangen采访时表示,他认为明年或者最迟在2026年,人工智能有望超越人类智能。马斯克将这种智能称之为AGI,即通用人工智能,旨在开发具有类人智慧和自我学习能力的软件,使其能够执行超越预定任务的功能。
目前,人工智能技术依赖于预先设定的参数运行,如图像识别和生成等。与此不同,AGI的概念旨在创造一个具备自主控制、自我理解和学习新技能能力的智能系统,使其能够在未经过教导的环境中解决复杂问题。实现具备人类智能的AGI仍处于理论探索和研究阶段。
马斯克提到,xAI目前在训练2.0版本的Grok,而训练后续的Grok3模型则需要更多的英伟达H100GPU。由于先进芯片的短缺,Grok的训练受到了一定程度的阻碍。预计在5月前,相关工作将得以完成。他还指出,电力供应的稳定将在未来一两年内变得尤为关键。
此前有报道称,特斯拉拥有数以万计的H100GPU芯片,而xAI也拥有相当数量的该型号芯片,这些硬件资源对于人工智能系统的发展至关重要。马斯克的言论凸显了在人工智能领域面临的挑战和前景,也引发了对未来技术发展的思考和探讨。
霍金和马斯克联手警告人工智能将带来危险,我们应如何确保其安全?
结论:霍金再次发出警告,强调未来100年内,人工智能将超越人类智能,可能控制人类的主导地位。他指出,不是担忧谁来控制AI,而是人类能否成功掌控其发展。科技力量与人类智慧之间的竞赛将决定我们的命运。
霍金在2015年Zeitgeist大会上重申,人工智能的智能将在未来100年内超越人类。他担忧的是,人类需要面对的是一个可能无法完全控制的智能体。他之前的言论也包含对AI可能终结人类的担忧。
史蒂芬霍金警告,计算机的智能将与人类同步甚至超越,关键在于如何确保这种智能与人类的目标保持一致。他与特斯拉CEO伊隆马斯克共同呼吁,科学家们应谨慎对待人工智能的发展。他们在公开信中强调,人工智能的潜在威胁不容忽视。
马斯克的警告同样严峻,他预测在5年内,智能机器可能带来严重危险,甚至将其比作召唤恶魔的象征。他在麻省理工学院的演讲中,将人工智能列为人类生存的最大威胁,他强烈强调人类对AI的警惕是必要的。
总的来说,霍金和马斯克的警告警示我们,面对人工智能的崛起,人类必须积极参与,既要推动科技发展,也要警惕其潜在的风险。
人工智能是否有可能超越人类?
按现在的科技这样发展下去,人工智能是有可能超越人类的。
1956年夏季,在美国达特茅斯学院举行的一次重要会议上,以麦卡赛、明斯基、罗切斯特和申农等为首的科学家共同研究和探讨了用机器模拟智能的一系列问题。
首次提出了“人工智能”这一术语,它标志着人工智能这门新兴学科的正式诞生。此后,人工智能在发展历史上经历了多次高潮和低潮阶段。
在1956年人工智能被提出后,研究者们就大胆地提出乐观的预言,达特茅斯会议的参与者之一赫伯特·西蒙(Herbert Simon)还做出了更具体的预测:10年内计算机将成为国际象棋冠军,并且机器将证明一个重要的数学定理。
西蒙等人过于自信,其预言没有在预测的时间里实现,而且远远没有达到。这些失败给人工智能的声誉造成重大伤害。
1971年,英国剑桥大学数学家詹姆士(James)按照英国政府的旨意,发表了一份关于人工智能的综合报告,声称“人工智能研究就算不是骗局,也是庸人自扰”。
在这个报告的影响下,英国政府削减了人工智能的研究经费,解散了人工智能研究机构。人工智能的研究热情第一次被泼了冷水。
20世纪90年代,以日本第五代机器人研发失败和神经网络一直没有突破为代表,人工智能进入了第二个冬天。
直到21世纪初,深度学习与互联网大数据结合才使人工智能又一次迎来新的春天。在阿尔法围棋等大量突破性成果涌现之后,人类对机器(AI)能否超越人类的问题又重新燃起了热情。狂热的情绪背后甚至产生了人工智能威胁论。
谷歌技术总监、《奇点临近》的作者雷·库兹韦尔(Ray Kurzweil)预言人工智能将超过人类智能。他在书中写道,“由于技术发展呈现指数级增长,机器能模拟大脑的新皮质。
到2029年,机器将达到人类的智能水平;到2045年,人与机器将深度融合,那将标志着奇点时刻的到来。”除此以外,支持人工智能威胁论的代表人物还包括著名物理学家霍金、微软创始人比尔·盖茨、特斯拉CEO马斯克等。
2014年12月2日,霍金在接受BBC采访时表示,运用人工智能技术制造能够独立思考的机器将威胁人类的生存。霍金说:“它自己就动起来了,还能以前所未有的超快速度重新设计自己。人类呢,要受到缓慢的生物进化的限制,根本没有竞争力,会被超越的。”
特斯拉CEO马斯克对待人工智能的态度比较极端,2014年8月,他在推特上推荐尼克·波斯特洛姆的著作《超级智能:路线图、危险性与应对策略》时写道:“我们需要重点关注人工智能,它的潜在危险超过核武器。”
2017年10月,日本著名风险投资人孙正义在世界移动大会2017上表示,他认为机器人将变得比人类更聪明,在大约30年的时间里,AI的智商将有望超过1万点。相比之下,人类的平均智商是100点,天才可能达到200点。
孙正义说:“奇点是人类大脑将被超越的时刻,这是个临界点和交叉点。人工智能和计算机智能将超越人类大脑,这在21世纪肯定会发生。我想说的是,无须更多的辩论,也无须更多怀疑。”
在人工智能威胁论热度日益高涨的情况下,人工智能领域的科学家对人工智能威胁论提出了反对意见。2014年4月,脸书人工智能实验室主任,纽约大学计算机科学教授杨立昆在接受《波普杂志》采访时发表了对人工智能威胁论的看法。
他认为人工智能的研究者在之前很长的一段时间都低估了制造智能机器的难度。人工智能的每一个新浪潮,都会经历这么一段从盲目乐观到不理智最后到沮丧的阶段。
杨立昆提出:很多人觉得人工智能的进展是个指数曲线,其实它是个S形曲线,S形曲线刚开始的时候跟指数曲线很像,但由于发展阻尼和摩擦因子的存在,S形曲线到一定程度会无限逼近而不是超越人类的智商曲线。
未来学家们却假设这些因子是不存在的。他们生来就愿意做出盲目的预测,尤其当他们特别渴望这个预测成真的时候,这可能是为了实现个人抱负。
具身智能时代呼唤“端到端”
“随着模型能力的迭代,以及模型从语言模型逐渐变成一个加上生成、多模态理解的能力,相信在今年年底、明年可能会期待有质变的产生,从务实的角度来看,大模型目前阶段只是一个初步的阶段。”
文丨智驾网 王欣
一辆搭载着FSD V12.3.1 Beta的特斯拉穿梭在旧金山市闹区的傍晚,依靠纯视觉端到端的方案完成了从车位驶出到目的地停靠路边的丝滑操作。
马斯克几乎会以每两周的节奏对FSD进行一次“大改”,直到这次FSD V12.3.1 Beta的更新。
3月25日,马斯克向全体特斯拉员工发了一封邮件,要求必须为北美地区提车的客户展示并安装激活FSD V12.3.1 Beta,并在交车前让客户进行短暂的试驾。希望让人们意识到FSD确实有效。
紧接着,马斯克又随即公布特斯拉基于纯视觉方案的端到端自动驾驶泊车功能将在这几日推送,在Twitter上对FSD不惜溢美之词的进行宣扬:开特斯拉用FSD,几乎哪儿都能去。
新版本发布后,海外媒体平台充斥着该版本的测试视频,不少网友对FSD V12.3.1在北美城市道路中的驾驶能力表达了赞叹:Tahts so cool!
作为引领自动驾驶风向标的特斯拉,已经将端到端自动驾驶的热流从北美流入了国内,又从舆论场的角逐带到了今年3月15日-17日召开的电动汽车百人会的产业演讲中来(以下简称:百人会)。
端到端的风暴,在中国正式打响了“第一枪“。
纯视觉在端到端中的“AB”面
随着高速NOA走向城市NOA,自动驾驶系统的复杂程度在大幅提升,数百万行的C++代码对人工编写规则方式带来巨大的成本。
这时,完全基于人工智能和神经网络的感知模块不会存在因为手动编写规则引发效率低下的困惑,所以现如今的行业风向走到基于大模型的端到端自动驾驶。
多家企业在今年百人会论坛中亮相了行业成果的殊荣,各家对于感知的技术路线看法也各有千秋。
去年,商汤的端到端自动驾驶大模型UniAD入选了2023年CVPR最佳优秀论文。
绝影是商汤智能汽车的板块,商汤绝影智能汽车事业群总裁王晓刚在百人会上表示:“端到端的自动驾驶UniAD,是今年我们自动驾驶最大的突破,从高速到城区的领航,在这里可以看到场景日益复杂,需要大量的工程师每天去解决层出不穷的各种case。端到端自动驾驶是数据驱动,能够为我们高效地解决城区的领航,提供更加高效实践的路径。”
与传统的的单模态模型相比,多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息,从而提高模型的性能和鲁棒性。
王晓刚还提到,商汤进一步提出了多模态大模型自动驾驶方案,这种方案的输入,除了各种感知传感器,系统的信息以外,还允许人机交互,通过自然语言作为输入。当自动驾驶时觉得旁边大车有压迫感,如果想要离它远一点,或者想超车,都是可以通过语言模型进行交互。
另外,输出的时候不但可以输出感知,还可以输出规控,还可以对自动驾驶做出的决策有解释性。
毫末智行CEO顾维灏也发表了对多模态大模型的看法,基于毫末的的DriveGPT,顾维灏表示,DriveGPT最核心的能力是基于持续的多模态的视觉识别大模型。
“我们把它用Token化的表达方式进行训练,再进行三维化,这是我们做大模型很重要的技术基础。”
DriveGPT是毫末智行研发的垂直领域大模型,在视觉大模型基础上,毫末又构建了多模态大模型,用以实现感知万物识别的能力。
顾维灏表示:“多模态放到视觉大模型里面,就会让视觉三维的渲染、标注、识别,能够提前自动化地理解这个照片里面,或者是说前融合后的数据里面究竟这个桌子和讲台是怎么样来分割的,所以加入了多模态大模型。在认知模型里面,我们又加入了大语言的模型。大语言模型它不仅仅是自然的交互,它还有很多知识的理解。”
网络和火山更强调座舱大模型,共识是:认为座舱大模型天生是多模态的场景。
网络的语音和大模型的一体化方案已经在极越车上落地,网络智能云汽车行业解决方案总经理肖猛认为,2024年是座舱大模型的元年。
同时,极越还是目前国内唯一采用纯视觉自动驾驶方案落地的车企,基于网络Apollo纯视觉高阶智驾能力和安全体系赋能,极越完成OCC(Occupancy Network,占用网络)升级,已形成“B.O.T”(BEV+OCC+Transformer)完整技术体系。
与传统的视觉方案相比,OCC的一个显著优势在于它能够处理未知或不常见的物体,降低了因未识别物体而可能引发的意外情况的风险。OCC还能够以厘米级的精度对障碍物进行三维建模。
3月26日,极越在其AI DAY2024技术大会上,发布了OTA V1.4.0新版软件,升级涉及智能驾驶、智能座舱、智能互联、三电等诸多领域,共计升级200多项功能。
当OCC对应在PPA(点到点领航辅助)功能上,就能使车辆拥有更合理的路线规划,并实现更流畅的变道和绕行。
火山引擎汽车行业总经理杨立伟在谈到大模型在各个行业应用时,发现汽车行业一个非常大的特点。
他表示:“手机目前交互形态还是基于触摸屏幕,通过屏幕来交互的产品形态,所以这也是为什么我们看Siri和手机里面的语音助手做的不好,我相信座舱内有非常便利的空间,目前没有大模型的时候,我们座舱的语音交互的时长和频率已经非常高,座舱是天生多模态的场景,机器想要跟人有互动更好,大模型更像一个人机交互的操作系统和人机交互的智能品。这样的话没有多模态的能力是不行的。”
端到端是自动驾驶研究和开发领域的一个活跃研究方向,这是不争的事实,但端到端自动驾驶技术尚未成熟,跟随特斯拉FSD V12的后来者虽多,但对于任何一家具备研发自动驾驶技术能力的企业来说,光是从普通架构切换到端到端技术的单项成本就颇高。
杨立伟坦诚地表达了这一观点:大模型现在在整个汽车行业的应用还是偏早期阶段。“刚才我们还在讨论,目前是量的提升,没有到质变,随着模型能力的迭代,以及模型从语言模型逐渐变成一个加上生成、加上多模态理解的能力,我相信在今年年底、明年可能会期待有质变的产生,从务实的角度来看,大模型目前阶段只是一个初步的阶段。”
感知固然重要,它提供了必要的信息输入,是司机的“眼睛与耳朵”,与它同样重要的,还有被业界及科研机构不断研究的认知,涉及到规划、决策和应对复杂或紧急情况的能力,相当于司机的“大脑”。
而只有当大模型作为自动驾驶的驾驶员,在认知层面远超于人类时,才能做出超出人类的决策能力,这时,感知、认知会不断迭代,甚至超出人类认知的上限,自动驾驶才会迎来真正所谓的GPT、IPhone时刻。
北京大学计算机学院教授黄铁军在百人会上对当下自动驾驶发展阶段进行了总结:
第一个阶段:只关心感知精度,缺乏认知的阶段,现在大部分车还处于这一阶段,就是L2、L3还很难,因为你只关心感知,不关心认知,这是肯定有问题的。
第二个阶段:特斯拉的FSD,但是他也不是真正的大模型,他只是用了Transformer,还是学人类的驾驶行为。但未来一定是对世界的深度认知,加上很强感知的时代。
不过目前,基于纯视觉方案的端到端自动驾驶,仍被很多主机厂认为是跨越鸿沟的必经之路。
因为不需要大量的人工策略、只需要采集足够多的优质驾驶数据来训练即可,可以通过规模化的方式不断扩展数据来不断提升系统的能力上限。
但这种简单也隐藏了巨大风险。
完全基于视觉的端到端自动驾驶不具备传统自动驾驶系统的“透明性”,传统自动驾驶即模块化方法,端到端自动驾驶是一体化方法,不产生中间结果,直接通过图像输入,直接输出控制信号,但这种技术路线也存在彻底黑盒,解释性差的问题。
同时,端到端模型的训练需要处理大量的数据,包括多模态视觉数据和车辆控制信号等。
当大模型训练的“暴力美学”应用在自动驾驶上
端到端可以类比做GPT-4语言模型,通过收集海量的数据加上训练而实现的。
以特斯拉为例,通过遍布全球的几百万辆量产车,可以采集到足够丰富、足够多样的数据,再从中选出高质量数据,在云端使用数万张GPU、以及自研的DOJO进行训练和验证,使得端到端自动驾驶能够从paper变成product。
OpenAI的秘诀一直以来是屡试不爽的Scaling Law——当数据和算力足够多,足够大,就会产生智能涌现的能力。
直到Scaling Law在这次百人会中被诸多次提及,意味着自动驾驶的成熟需要“暴力美学”来催化,而背后是高昂的算力支出来支撑。
黄铁军在百人会上明确强调了大模型未来超越人类的关键不是靠概率,靠的正是对海量语料,数据背后精确的理解。
顾维灏表示,伴随着人工智能和大模型的发展,自动驾驶迎来了第三个阶段:数据驱动的时代。
或许可以这么理解:大部分代码都不是工程师来写,这些工程师从第二个阶段的“软件驱动的时代”来到了第三个阶段的“数据驱动时代”,解放了过去写软件的双手,所有的工程师都是在准备数据、准备环境、训练模型、检验最后的结果、调整结构、调整参数等工作。
最近一段时间的发展,顾维灏认为或许是自动驾驶的3.0时代。“每一个时代里面的感知、认知和模型是什么样方式来实现的,都完全不一样。”他说。
智能驾驶1.0 时代,是以硬件驱动为主;2.0 时代,是以软件驱动为主;3.0 时代,则是数据驱动为主的大模型时代。
“端到端一定是未来很重要的方向,但它不会这么快到来,”顾维灏表示。他认为还需要几年的发展。“把过去的离散的部分逐渐地聚集化、模型化,把感知的模型聚集到一块,把认知的模型聚集到一块,控制的模型聚集到一块,然后再来实践车端模型和云端模型的联动。”
在 3.0 时代中,顾维灏指出端到端是最重要的方向,目前行业的发展趋势是一个从分散到聚集的过程。
在谈到算力需求时,王晓刚认为,过去发展的过程当中,从2012年AlexNet出现,深度学习神经网络大规模的应用,对于算力的需求是上千倍的提升。随着ChatGPT、GPT-4,甚至更大规模的大模型,我们有上亿倍算力需求的提升。
如何分配技术和下一代技术算力的精力、资源也是一针见血的问题。
网络智能驾驶事业群组首席研发架构师王亮在百人会活动上接受媒体采访时透露:“我们选择纯视觉路线,放弃了激光雷达把它拿掉也是资源的原因。我们希望把所有算力、数据、处理资源、人才、模型参数规模都给到纯视觉</stron