在智能驾驶领域,竞争焦点近年来经历了显著演变。
最初,竞争围绕硬件展开,包括是否配备激光雷达、摄像头数量以及算力达到多少 TOPS。随后进入大模型时代,竞争转向端到端、VLA(视觉-语言-行为)和 World Model(世界模型)等技术路线。
如今,众多公司已认识到,仅仅拥有更大的模型已不足以形成代际优势,决定技术上限的关键在于模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。
这促使越来越多的汽车制造商走向自主研发。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD 模型到 Dojo 超级计算机和自研芯片的整个产业链。在中国,包括小鹏、蔚来和理想在内,都在不断向下游技术环节延伸。
理想汽车在其今年发布的 L8 和 L9 车型中已采用自研的马赫 M100 芯片,该芯片采用数据流架构,被理想汽车视为人工智能领域的重要技术方向。基于马赫 M100,理想汽车也运行了自研的马赫 VLA 模型。
然而,对于行业而言,更值得关注的问题并非“是否进行自研”,而是这些投入究竟能解决哪些实际问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及 AI 基础设施背后的设计理念。以下为部分访谈内容,经过编辑整理:
问:为达到特斯拉 FSD V14 在第四季度的效果,理想汽车还需要在哪些方面努力?
詹锟: 我认为在追赶 FSD 方面,需要从两个层面来看。
首先是基础体验,具体包括三个维度:安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全感、效率和舒适度方面表现出色,这是其基本功。即使不挑战极端的驾驶场景,我们也希望在这些基础体验上达到同等水平。
其次是能力层面,这一点同样难以追赶。例如,特斯拉能够识别并礼让特殊车辆,拥有在极窄空间内的精准感知能力,并能识别交警指挥,这些能力非常强大。
在能力层面,存在架构升级的机会。为什么只有特斯拉拥有这些能力?这可能与以往的范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量尝试。
问:我理解马赫 VLA 是一个技术体系,而非单一模型。例如,Mind-Edge 是服务于智能座舱的端侧模型。那么,当前的智能驾驶模型中是否还包含“L”(Language 语言)的部分?
詹锟: 当前自动驾驶架构的一个共同趋势是整合 VLA(视觉-语言-行为模型)和 World Model(世界模型)。
从长远来看,所有技术路线都将朝着这个方向发展。无论是以 VLA 还是 World Model 为主,其中的提示(Prompt)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用它。
对于机器智能而言,我认为基于视觉(Vision Based)的 pendekatan 更加合理,它能更好地理解空间、感知三维空间并服务于环境。语言无疑是有价值的,尤其是在理解环境、交通、指令以及进行复杂的决策思考时。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
谢炎: 如果要实现 L3、L4 级别的自动驾驶,解决更泛化的问题,模型就需要具备类似人类的思考能力。届时,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有大量数据,在遇到分布之外的情况时也会不知所措。就像动物即使学会了所有常见情况,面对从未见过的情况也可能完全无法处理,不知道该做出何种选择。
我们认为,越往 L3、L4 发展,需要解决的问题越接近 90%、95%、98% 之后的那些“未知”场景,这需要模型具备类人的思考能力。而实现类人推理和思考能力,语言模型是关键来源。例如,面对交警的手势,理解其含义并非仅仅依靠收集或生成数据就能解决。
问:随着理想汽车车队规模的扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?
詹锟: 首先,数据的量必须足够大,核心目的是收集更多长尾场景(Corner Case)。目前,业界有多种方法可以在车端部署神经网络触发器,以区分场景的难易程度,并将关键数据传回。这也是特斯拉在数据方面表现突出的重要原因之一。
其次,数据的质量至关重要,主要体现在行为质量上。当前,行业逐渐趋向于端到端范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),关键在于能够准确理解和执行行为。因此,行为的质量、纯净度和一致性非常重要。
至于数据规模增大后边际效应是否衰减,只要模型能力不断提升,追求满分表现,数据带来的收益曲线必然是对数增长,而非线性增长,这是所有 AI 公司都会遇到的情况。虽然后期数据收敛的速度会放缓,但我们希望通过规模效应来加速这一过程。
问:马赫 M100 可以在多种 AI 场景下运行。五年后或再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
谢炎: 尽管业内存在“舱驾一体”的说法,但我们认为“舱驾一体”的核心在于 AI 算力部分,其他部分的集成度则不那么关键。因为座舱系统和 AI 智能驾驶系统可以完全独立,但 AI 算力集中在一起可以大大提高分配效率。
我们的路线图最终目标是实现车内统一的 AI 计算中心,所有 AI 任务都可以在此进行计算。这类似于在笔记本电脑上运行 OpenCLaw,AI 计算并非在笔记本本地进行,而是在 Token Provider Server 上完成,车内也类似,会有一个 Token Server。
这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务的相互隔离,互不影响。例如,智能驾驶任务的确定性,无论是内存还是带宽,都能保证不被其他任务干扰,这是软硬件协同设计才能实现的结果。
问:是否因为 M100 采用数据流架构的 AI 推理芯片,其对带宽的需求较低,而对片上存储的需求更高?
谢炎: 我们对带宽的要求确实较低,但这并非直接导致设计 SRAM 容量(非显存)的原因。当前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。但计算、带宽、SRAM 等都需要晶体管来实现,最终的设计是基于成本、综合性能等多方面因素权衡后的选择。
不同的架构设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。
问:为什么当前大算力芯片方案,如英伟达、小鹏、以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?
谢炎: 本质上,座舱和驾驶是两个独立的系统。特别是对于高端 L3 向 L4 发展的智能驾驶,需要一个更高确定性的系统,要求内存专属、计算资源专属,这时融合的意义就大大降低了。因为资源无法实时切换,实时切换会降低确定性。如果发展方向是越来越独占,融合的价值就不大了——你只是将芯片整合在一起,但资源仍是两份,并不会降低成本,甚至可能影响效率。
您可以看到,目前所谓的“舱驾融合”系统,它们本质上还是分开的。如果无法实现不同任务的快速切换,将两个芯片集成到一个芯片中,虽然晶体管数量可能不变,但可以节省一次封装成本。对于中低端芯片而言,这部分成本可以节省,但幅度有限。
我的观点是,随着智能驾驶的不断高端化,舱驾融合的意义可能并不大。如果能将这些芯片做得更近,在一块板上实现高度集成的小体积方案,这是可行的,不一定非要做成一块芯片,也可以是多块芯片集成在同一块板上。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度很快,芯片要持续迭代需要什么样的条件?
谢炎: 芯片的初期投入确实很大,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有几十亿到上百亿的投入,才足以支撑芯片的研发。第二个条件是,你研发的芯片所解决的问题,必须能够显著提升你的产品能力。
很多人认为芯片需要巨大的出货量才行。实际上,芯片的成本与面积相关。一辆车上的智能驾驶芯片,例如 Livis 使用两颗马赫 M100,总面积约为 800 平方毫米。而一部高端手机芯片的面积约为 100 平方毫米,因此一辆车的智能驾驶芯片面积相当于 8 部手机的芯片面积。
这样计算下来,几十万辆车的需求量所需晶圆面积非常可观,足以摊薄成本。所以,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器究竟难在哪里?攻克它花费了多长时间?
谢炎: 在流片之前,甚至在设计阶段,我们就开始了编译器的工作。在流片之前,我们已经完成了许多模型的运行验证。
数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群要解决的问题非常相似——当规模扩大到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构调度方式在这种规模下是不可行的,这是一个超大规模的并行调度问题。
超凡国际以个性化内容推荐,满足您的多元化需求为核心,带来高效便捷的体验。
投资达人
2026年5月15日想了解更多安全可靠的平台,守护您的数字资产相关内容,尽在超凡国际。
社区意见领袖
2026年5月15日我们相信,每个人都值得拥有高效便捷的财富管理体验。超凡国际官网提供无缝的移动端登录入口,让您轻松管理个人财务,开启智能理财新篇章。