商汤王晓刚：AGI能为智能汽车提供更好的驾乘体验

网易汽车4月3日报道 2023中国电动汽车百人会论坛期间，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，智能汽车是通用人工智能实现闭环的一个非常好的场景，我们已经有人机共驾。未来我们希望车和模型之间能够产生更有效的互动，那就完成了从人到车，到模型这样的一个互动的闭环，能够让通用人工智能为我们提供更好的驾乘体验，解锁无限的想象空间。

以下为王晓刚演讲实录：

(资料图片)

各位同仁、各位嘉宾，大家上午好！我是商汤科技王晓刚，新年伊始，像ChatGPT，还有GPT-4掀起了通用人工智能的热潮，这是一场新的技术革命。今天我也是非常有幸能有这个机会跟大家一起探讨，通用人工智能和多模态大模型给智能汽车带来的机遇和挑战。

从2012年开始，过去十年，人工智能的技术革命是以深度学习不断去突破工业应用的红线为起点的，诞生了一系列的AI+场景的应用。那么基于每个场景都有不同的专属的模型，其中的研发成本比较高，周期比较长。

从2022年开始，新的通用人工智能,它是以非常高效的方式去解决海量的开放式任务，更加接近人的智能，而且能够产生有智慧的内容，它也带来了新的研究范式，即基于一个非常强大的多模态基模型，通过强化学习和人的反馈，不断解锁模型新的能力。

什么是通用人工智能呢？我们可以跟现有的人工智能系统做一个比较。现有的人工智能也能够接收多模态的数据，但是它输出的任务都是事先定义好的。如果我想给这个系统去增加一个新的任务，我就要对系统进行重新设计，还要采集大量样本。

在通用人工智能时代，我们通过输入提示词和多模态内容，它就可以去生成多模态的数据，更重要的是，它可以用自然语言去生成对任务的描述。自然语言即可以用非常灵活的方式去覆盖大量的长尾问题和开放性的任务，甚至包括一些主观描述。

比如说，在之前我们做一些特定场景的检索任务时，一个人工智能系统可能是有几十个标签。我们做过实验，如果要是用自然语言描述，我们可能有一万多个词，通过它们的组合去描述各种任务，实际上是非常强大，而且是灵活的。

那么，这里面举一个在自动驾驶中遇到的一个例子。给定一个图片，我们想去问我们是否需要减速？在我们现有的AI的系统里面，我们首先要做物体的检测，能够检测物体框，里面做文字的识别，最后做这样的一个决策。那么，其中所有的过程里面的每一个模块都是事先定义好的任务。

在通用人工智能下，给定图像，我们只需要用自然语言去问这个图像的问题，比方说，这个图标是什么意思，我们应该做什么？这个模型本身不会发生变化，它输出就会通过自然语言的方式，能够给我们一系列的这种逻辑的推理，最后给我们结论。比如说，它可以告诉我们这里面的限速是30公里每小时，前面100米是学校的区域，有小孩，你应该去小心，能够将车速降速到30公里每小时以下等等这一些。可以看到，这都是一些开放式的新的任务，可以对我们人工智能系统产生一个非常大的变革。

通用人工智能还有非常强的一点，它能够产生内容，而且是有智慧的内容。智能驾驶，或者自动驾驶汽车里面我们有“数据飞轮”的说法，我们的模型能够从驾驶终端采取高质量的数据，对模型进行更新，然后再去从终端提升数据的量和质。

在通用人工智能时代，它会有一个智慧的飞轮，这里面人和模型会产生互动，人会给模型输入什么呢？去输入Align With Human Intention，就是这个模型是很强大的，但是它其实不知道人需要它什么样的能力。通过人的反馈，它就更好的能够去理解人需要它展示什么样的能力，而去解锁这个模型更多的技能。同时，这个模型给人输出的是什么呢？是有智慧的一个内容。我们都知道，这些内容会激发人的各种创作和智慧的产生，所以这其中又会产生智慧的飞轮。

但是，AGI对算力的需求是非常大的。ChatGPT具备1750亿参数, 需要3000~5000张A100训练卡，而我们也可以看到ChatGPT一次训练的成本是上千万的美金。此外，今天它的推理的成本每天也有几百万美金高昂的成本在。

商汤从2021年在上海的临港建立了我们AIDC的超算中心，实际上是在这方面也有提前的这样的一个布局。SenseCore AI大装置基于2.7万块GPU的并行计算系统实现了5.0 exaFLOPS的算力输出，可支持最多20个千亿参数量超大模型（以千卡并行）同时训练。

从2019年开始，商汤从10亿参数的视觉模型研发，到今天有320亿全球最大规模的通用视觉的模型。在NLP领域，商汤当前也有接近2000亿参数的大模型，包括亦有能力去训练1800亿参数的多模态的模型。所以，未来通用人工智能基于多模态的基模型可以做视觉的感知，语言的理解、内容的生成和决策的推理。

商汤绝影是商汤下面做智能汽车的业务板块，我们坚持驾舱云三位一体的发展策略。我们希望能够通过驾舱融合，带来更好的驾乘体验；AI云能够去为自动驾驶提供数据闭环的服务，能够通过提供丰富的产品功能让智能座舱成为真正的第三生活空间。同时，商汤的AI云也为通用人工智能实现智能驾驶和智能座舱打下了非常强大的基础。

我们可以看到，在自动驾驶领域，BEV是我们当前主流的技术路线，未来可以朝多模态、通用人工智能的方向发展。我们通过AIGC可以去生成困难的样本，我们模型去输入多模态的这样的一些数据。其中，自动驾驶多模态的大模型可以做到感知和决策的一体化，输出则对3D的环境进行重建实现环境的可视化理解，我们的行为解码可以生成完整的路径的规划。同时，我们动机的解码器可以用自然语言去描述我们推理的过程，进而使我们自动驾驶的系统变得可以解释。

我们也是基于这些多模态的大模型可以做到数据的感知的闭环和决策的闭环，从前端自动的去采集高质量的数据，利用大模型自动的数据的标注，包括产品的检测，能够几百倍的去提升我们模型迭代的效率并降低它的成本。

在智能座舱板块，通用人工智能使我们基模型具备空间环境的理解、用户状态的感知，多模态的指令，还有多轮对话，内容生成等一系列的能力。它就可以去赋能，作为我们情绪的感知，智能助手，基于情感的对话、创意、内容的生成，个性的交互等等这一系列功能，不断地去提升我们的个性化的体验。也使我们的场景从上车、行车、停车、离车，进而拓展到娱乐、办公、购物、休息，这里面有很多的可以去探索的应用的场景。

实际上，智能汽车是通用人工智能实现闭环的一个非常好的场景，我们已经有人机共驾。未来我们希望车和模型之间能够产生更有效的互动，那就完成了从人到车，到模型这样的一个互动的闭环，能够让通用人工智能为我们提供更好的驾乘体验，解锁无限的想象空间。

最后，这个月商汤也在通用人工智能方面会有我们的技术日，去介绍一系列的多模态的大模型，包括语言的大模型、感知的大模型等等。我们希望去与我们的客户和合作伙伴共同迈向通用的人工智能，谢谢大家！

关键词：