合众新能源汽车：大模型上车成为“车大脑”，如何赋能智能语音交互？

日期：2024年01月03日阅读：60027

2023年12月12日，在2023第五届智能座舱与用户体验大会上，据合众股份有限公司软件开发总工程师蔡勇介绍，语音作为座舱的第一交互方式，自2010年语音输入法的推出开始萌芽；2016年，语音助手的前装上车开始引起行业的关注。但直到2019年，行业推出“全场景的连续对话”才使得语音助手的发展走向成熟。2023年，大模型技术的出现将带来新的赛道。

合众新能源汽车：大模型上车成为“车大脑”，如何赋能智能语音交互？
图片来源于网络，如有侵权，请联系删除

蔡勇表示，哪吒汽车的语音助手一直围绕自然、全面、聪颖三个关键词进行设计。而大模型技术表现为通才、专业、自然三个特点。从C端来看，大模型将来个性化服务的变革，比如个性化头像，昵称，情感陪伴；从B端来看，将主要实现降本增效，在文本、图片、视频、编程、报表等方面带来助力。当前，大模型上车仍处于萌芽期，在应用上主打功能移植、以宣传为主、与车的结合较少。

合众新能源汽车：大模型上车成为“车大脑”，如何赋能智能语音交互？
图片来源于网络，如有侵权，请联系删除

面向大模型的思考，蔡勇认为大模型实现可以作为内部工具使用，比如，可以进行数据和评价上的应用；当前大模型上车还处于探索期，重点方向应该是大模型要跟车场景结合；最后在成长期，大模型将发挥“车大脑”的功能，进行座舱功能的主动执行，并且是“最适合你”的。

合众新能源汽车：大模型上车成为“车大脑”，如何赋能智能语音交互？
图片来源于网络，如有侵权，请联系删除

蔡勇 | 合众汽车股份有限公司软件开发总工程师

以下为演讲内容整理：

首先简单介绍我们的公司——合众新能源汽车股份有限公司。我们公司的Logo是由人、树、泉三个元素叠合而成，这不仅体现了我们公司对大自然的敬畏，也象征着我们以人为本、与自然和谐共生的理念。

公司的品牌初心是为人民造车，这不仅仅是一句口号，更是我们对社会、对消费者的承诺。我们的价值观是“科技平权”，这四个字虽然简单，但却承载着我们的使命和愿景。我们希望通过科技的力量，打破传统与普通消费者之间的壁垒，让更多的人能够享受到高品质的汽车生活。

目前，我们公司推出了五款车型，包括哪吒V、哪吒U、哪吒S、哪吒GT以及刚刚上市的哪吒X。这些车型各具特色，满足了不同消费者的需求。

图源：演讲嘉宾素材

车载语音现状

接下来，和大家分享车载语音的发展历程。作为一名从业多年的专业人士，我见证了车载语音从无到有、从简单到复杂的发展过程。2010年，随着智能手机的普及，语音输入法应运而生。那个时候，我们还在思考如何将语音技术应用到汽车上。随着技术的不断进步，车载语音助手逐渐成为现实。2016年，斑马与上汽合作推出了eRX5车型，将语音助手前装至车内，实现了与整车功能的紧密结合，这标志着一个新的时代的开始。

然而，车载语音助手的发展并非一帆风顺。在2019年之前，语音助手的使用体验并不理想。每次只能执行一个命令，无法连续对话；与车辆功能的结合也相对较少。直到行业在2019年推出了全场景连续对话功能，才真正解决了这些问题。如今，头部车企的语音助手都已经具备了全场景连续对话的特点，这为用户带来了更加便捷、智能的用车体验。未来，随着技术的不断突破，车载语音助手将会迎来更加广阔的发展空间。新的赛道、新的产品将会不断涌现，为用户带来更加美好的生活体验。

图源：演讲嘉宾素材

接下来，以哪吒汽车的语音助手为例，与大家探讨2019年之后所呈现出的几个重要特点。我们的云助手产品始终坚守三个核心理念：自然、全面和聪颖。

首先是“自然”，这涉及到交互的自然流畅性。其中，唤醒速度是一个关键因素。经过大量的优化工作，我们在合作伙伴的代码基础上实现了行业领先的唤醒速度，端到端仅需300毫秒。我们采用目前最先进的流式理解技术，实现字词的边识别边理解。这就像人们在对话时，每说一个字或词，大脑都在对其进行处理。

今年10月，我们OTA成功推送了“两字唤醒”功能，只需简单的“哪吒”命令，无需再添加“你好”。客户普遍反馈这种简化方式更为友好。实践证明，只要下定决心，技术难题都可以克服。

其次，我们的语音助手实现了70%的车控功能全覆盖。无论是打开车窗、调节音量还是其他控制功能，用户都可以通过语音助手轻松实现。在“可见即可说”方面，我们也做到了全覆盖。去年2月，我们推出了“图片可见即可说”功能，用户只需用自然语言描述图片，助手就能识别并与之互动。今年5月，我们再次引领行业潮流，推出了更先进的多模态语音交互功能。例如，当副驾驶乘客要求听歌或看视频时，语音助手会根据OMS摄像头捕捉到的副驾驶视线所及的屏幕，自动切换到相应的中控屏或副驾屏。这大大提升了用户体验和交互的自然性。

最后是“聪颖”。语音导航的自学习。尽管目前的语音识别技术在准确率方面取得了显著进步，但对于某些特定的POI地点，尤其是新出现的地点，仍然存在一定挑战。例如，上海的金科中心，其名字中的“金”和“晶”的发音对于普通人来说，可能难以通过发音区分清楚。为了解决这一问题，我们开发了一项自学习技术。当用户首次使用语音导航，识别出错时，只需手动发起导航至该地点，系统便会自学习成功。下次再导航至同一地点时，系统将自动调整语音识别结果，从而提高语音导航的准确性。

语音使用量是一个关键指标，它反映了语音产品对车辆贡献的价值。为了更直观地展示语音助手的价值，我向大家分享一组关于我们公司用户数据的统计结果。在我们的用户群体使用中，“意图使用量”达到800+。与其他企业相比，我们的用户特点呈现出较弱的“长尾效应”。这意味着用户的需求分布相对均匀，而不仅仅是集中在少数几个常用功能上。例如，后视镜调节、座椅加热、打开后备箱等功能的语音使用率都很高，而不仅仅局限于空调、音乐等头部效应的功能。这种多样化的需求分布使得语音助手在功能覆盖方面更具挑战性，同时也更加有价值。

另一个值得关注的数据是平均日活跃率。我们日活跃率的下限是80%，这在国内同行中并不容易实现。有些同行可能会将一些不必要的主动交互计入日活率，例如上车时的问候语等。而我们定义的日活率是必须基于用户主动唤醒语音助手执行任务的场景。这意味着每天有80%的车辆在行驶过程中主动使用了语音助手来完成各种任务。同时，每辆车平均使用有效指令的下限是10次，这些指令涵盖了从空调调节、座椅调整到音乐播放等各种功能。

想象一下，驾驶员每天驾驶车辆的时间大约为2小时，其中来回各占1小时。在这段时间里，驾驶员需要处理许多与驾驶相关的任务，如调节空调、座椅等。而我们的语音助手能够协助完成十项任务，这意味着它为驾驶员节省了大量的时间和精力。

大模型的三大特点——通才、专业和自然

从使用者的角度，大模型具备三大特点：通才、专业和自然。

首先，通才。GPT采用全社会的语料学习，这意味着它在知识的广度上具有显著优势。它知道的内容涵盖了各个方面，无论是娱乐、教育还是专业领域的知识，都能够给予较为准确的回应。

其次，专业。大模型在覆盖面很广的情况下，也能够在每个领域表现出深刻理解。目前，GPT3.5已经可以看作是一个全科毕业生，具备扎实的基础知识。而当GPT发展到4.0、5.0等更高版本时，它将成为全科博士毕业生，知识水平和理解能力将达到新的高度。我了解到，今年年底Open AI将推出GPT4.5，我们有望见证更为震撼的表现。

最后，自然。大模型的交流方式非常自然，就像人与人之间的对话一样。使用者不需要采用特殊的专业术语与模型沟通，只需使用日常语言即可。这种自然的交流方式使得大模型在各个领域的应用更加广泛，不仅限于AI领域。

对于2C和2B两个领域来说，大模型的影响和价值是显而易见的。

从C的角度来看，大模型能够带来个性化体验。例如，现在市面上有一些创业公司利用大模型为用户生成个性化的职业照、证件照或头像等。这些服务都与个性化息息相关，满足了用户对于独特性和定制化的需求。

此外，大模型在工具类应用中也表现出色。例如，微软推出的Copilot工具可以帮助用户更高效地使用复杂的软件，如Office和幻灯片等。这种工具类应用能够大大提高用户的生产力和效率，使工作变得更加便捷和高效。

在B端领域，大模型的作用更加突出。它就像电力一样，为生产和生活带来了效率的大幅提升。例如，在文本创作方面，大模型可以自动生成文章、摘要等文本内容，大大减轻了写作者的负担。在视频生成方面，大模型可以根据给定的剧本或小视频片段自动生成后续内容，极大地提高了视频创作的效率。

图源：演讲嘉宾素材

此外，大模型在编程和报表能力方面也表现出色。对于企业而言，报表的生成是一项重要的任务。而有了大模型的支持，报表的生成将变得更加高效和准确。这不仅可以提高企业的运营效率，还可以为企业决策提供更加可靠的数据支持。

接下来，我将对大模型的现状进行简要的探讨。自2022年大模型推出以来，目前仍处于萌芽期。然而，何时结束这一阶段，我暂时无法给出明确的答案。但我认为，一个重要的标志是当具有强烈感知能力的智能场景落地时，这一阶段才算告一段落。尤其需要注意的是与车辆紧密相关的智能场景。

大模型上车现状

目前，国内在大模型上车方面呈现出三个显著特点：

第一，以功能移植为主。简单将手机或电脑上的大模型直接移植到车上，而不考虑其与车辆的契合度。

第二，以PR宣传为主。企业过度强调自己在车辆上应用了大模型，而忽略了实际的应用效果和用户体验。

第三，与车辆功能的结合较少。大部分已上车的大模型应用与车辆的实际功能并无太大关联，如娱乐八卦、天文地理、历史知识、情感聊天、儿童教育、成语故事等。虽然这些内容对于丰富驾驶体验有一定作用，但它们与车辆的核心功能并无直接关联。

现在整个行业都面临着降本增效的压力，资源有限。因此，企业要更加聚焦于真正与车辆功能相关的应用场景，而不是过度追求PR效果。

我们对大模型的思考

首先，大模型可以作为内部工具，提高工作效率。比如在语音团队中，我们有很多数据相关的工作，如准备语料、数据增强等。而有了大模型后，这些工作变得异常轻松，大大提高了数据生成的质量和效率。

再者，大模型还可以用于多语种翻译。随着车企的全球化战略加速，多语言支持变得尤为重要。像我们公司即将进军泰国市场，我们需要泰语的语料支持。而大模型可以帮助我们快速、准确地完成翻译工作。

其次，大模型还可以应用于自动化标注和自动化评价等方面。例如，我们可以通过大模型对语音评价系统进行优化，让它更好地完成用户的任务。我们将用户的埋点信息和上下文信息提供给大模型，让它判断任务是否完成。

最后，由于用户的所有语音指令都会被记录在日志中，我们可以通过大模型对这些日志进行分析，挖掘出用户的意图和需求。例如，用户可能希望通过语音调节氛围灯，但我们的车型并未提供这一功能。通过大模型的分析，我们可以发现这一需求，进而考虑是否需要加入这一功能。

图源：演讲嘉宾素材

对于在C端的应用，我认为目前还处于萌芽期。而结束这一阶段的一个重要标志将是与车辆相契合的智能场景落地。进入探索期后，我们应该重点关注语音功能与车场景和智能驾驶的深度融合，借助大模型使语音助手真正进入成长期。

从座舱的角度来看，希望大模型能够助力我们实现全车的语音可控、全生态的语音融合以及全车机的语音支持。没有大模型的帮助虽然也可以实现这些功能，但成本和效率将无法得到有效控制。而大模型的最大优势正是降本增效，这与当前行业的核心需求高度契合。

在智能驾驶方面，语音与智能驾驶的结合已经开始显现，但还处于初级阶段。这主要是因为智能驾驶尚未普及，因此没有太多精力去考虑与语音的结合。但随着智能驾驶的逐步普及，这种结合将变得更加紧密。例如，在自动驾驶过程中，用户可能因为特殊需求而产生的临时干预路线或请求停车等操作，而这些都可以通过语音指令实现。大模型能够将车辆、道路和人的信息整合在一起，从而提供更加智能化的服务。

随着大模型和语音助手的不断渗透，当整个汽车行业的智能化水平达到一定高度时，我们将进入主推的成长期。在这个阶段，车辆能够接收和处理的信息将大大增加，大模型的多模态输入功能将得到充分应用。这些信息包括车辆自身的传感器信息、道路导航软件提供的POI信息以及车外摄像头捕捉到的图像信息等。

图源：演讲嘉宾素材

通过将这些信息输入到大模型中，我们可以获得一个类似于“车大脑”的功能。这个“车大脑”将主动执行最适合用户的操作，包括车窗、空调、座椅、天窗、雨刷、车锁等功能的调节。它能够根据用户的历史信息和多模态输入信息来做出最适合用户的决策。例如，在驾驶过程中，用户可以根据自己的需求选择不同的驾驶模式，而“车大脑”将根据用户的选择主动执行相应的操作。

总之，大模型在汽车行业的应用前景广阔，尤其是在语音系统方面，从而为用户提供更加智能化、个性化的服务。相信随着技术的不断进步和发展，大模型将在汽车行业中发挥越来越重要的作用，为人类带来更加智能、便捷的出行体验。

（以上内容来自合众新能源汽车股份有限公司软件开发总工程师蔡勇于2023年12月12日-13日在2023第五届智能座舱与用户体验大会发表的《大模型赋能的智能语音交互》主题演讲。）