浅谈智能汽车的语音交互(汽车智能语音控制有什么用)
众所周知,如果当我们的视觉通道被占用时,听觉通道更适合接收紧急和重要的通知,尤其是当我们开车时,双手需握着方向盘,眼睛需要时刻看着前方道路,保持高度的专注以确保驾驶安全,但有时我们会想着播放一首音乐缓解旅途的沉寂和无聊,又或者需要导航去开启另一段新的旅程,这时候视觉通道处于运行中,很难分心去做别的事,那么自然而然听觉通道适合开启,也正是基于此,语音交互开始引入到汽车中。
一、什么是语音交互原始的交互方式,就是人与人用语言、动作、眼神交互,人与物用动作交互机器刚出现的时候,并没有人机交互的理念,机器就是一个冷冰冰的物体,需要人去学习和适应在1952年,贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey,这是已知的最早的关于机器语音的发明。
而后1962年,IBM发明了第一台可以用语音进行简单数学计算的机器Shoebox1990年出现了交互模式的语音应答,一般都广泛的应用在运营上的客服,即使是现在三大运营上的机器客服还是采用了这种语音应答的方式。
而随着iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展,近两年,各大公司都出了自己的智能家居音箱,例如amzon echo和Google home这类的纯语音设备简单的讲,智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果,典型的应用场景—语音助手,如虫洞语音助手、讯飞语点。
从载体上分,语音交互以手机或电脑为载体,在汽车上以多媒体硬件为载体除此之外,语音交互还广泛应用于客服、教育和医疗等行业,如客服语音质检、口语测评等二、语音交互的难点从手机到智能家居,从智能家居再到智能汽车,语音交互已经遍及我们的日常生活,但语音交互仍没有达到成熟应用的水平,遇到的困难也贯穿了开发到使用整个过程。
通常一套完整的语音交互系统有三个典型模块,语音识别(Automatic Speech Recognition,ASR),即将声音转化成文字,自然语言处理过程(Natural Language Processing,NLP)即将文字的含义解读出来,并给出反馈,最后通过语音合成(Text to Speech,TTS),即将输出信息转化成声音。
典型难点一:远场识别难题第一个难题是获取语音的问题语音质量高的前提下,才能有较好的语音识别结果,有些公司宣称自己的语音识别率达到了95%甚至99%,但其前提条件往往是声源距离很近、环境特别安静、说话人的普通话特别标准,而非日常的应用场景。
获取用户语音,根据距离分为近场识别和远场识别两种情况,后者难度更大手机上的语音交互是典型的近场,距离声源近,语音信号的质量较高另一方面,采集语音的交互相对简单,有触摸屏辅助,用户通过点击开始和结束进行信号采集,保证可以录到用户说的话。
远场语音交互以智能音箱为代表,声源远,不知道声源具体位置,环境中存在噪声、混响和反射单麦克风无法满足要求,需要麦克风阵列支持用户可能站在任意方位,被语音唤醒后,需要定位到声源位置,向该方向定向识音,增强语音并降低其他区域和环境的噪声。
难点二:语音识别正确率实际工作中,常用的指标是识别词错误率(Word Error Rate)微软语音和对话研究团队负责人黄学东最近宣布微软语音识别系统错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。
进步来自于两方面,一是技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面是庞大的计算资源和训练数据但即使是这样,仍然有5.1%的错误率难点三:语义识别约翰·希尔勒提出过「中文房间」的思想实验,一个不懂中文,会说英语的人在一个封闭房间中,房间里有一本英文手册告知如何处理相应的中文信息。
用中文写的问题从窗户递进房间里,这个人对照手册进行查找,将对应的中文解答写在纸上并递出去房间外的人可能会觉得这个人很懂中文,实际他一窍不通训练机器来理解语义类似于这个过程通过训练,我们让机器的反应接近于能够理解,但无法像人类一样真正理解语言。
所以现在的很多语音交互都停留在固定的模式下,比如你需要说出特定的词语、问句,对话,语音助手才会识别出你想表达的意思,进而作出反馈,但如果你换一种句式或者结构,语音助手觉得你就是一个白痴,话都不会说三、未来的汽车语音交互发展方向是什么。
随着系统的更新迭代与技术的不断提升,未来的智能语音设计会将 “动口不动手”的全新交互方式更加的完善,以威马汽车智能语音小威举例:唤醒AI小威,除了常规功能外,AI小威的语音交互功能将会表现的更加的智能和自然,具体可以表现在以下几个点:
1.智能语音会更加的贴合真人声音:如果你喜欢完全可以把小威设置为喜欢的人的声音,比如林志玲,比如一条小团团,比如沈腾,比如刘亦菲,那样欧美便不用再忍受现在的单调而又毫无情感的机器声音了;2.语音对讲将会从现有的单一对讲模式进入多轮对讲模式
“小威吗,帮我打开空调”“空调已打开,温度还合适吗”“可以的,再帮我播放周杰伦的音乐”“播放晴天可以吗”“可以的““音量合适吗““调到15吧”3.语音交互可支持多种方言选择无论是四川用户还是广东用户,亦或是上海用户
,均可以使用家乡方言流畅对话,试想下,在一个陌生的城市,整天都在用普通话交流,回到自己的爱车里面,你可以抛下所有的顾虑,尽情的用家乡话和小威对话,跟着小威一起唱歌,一天的疲惫也会减轻不少。
4.语音交互具备听觉选择能力,提升多人对话体验很多时候,我们会在想,人为什么会有两个耳朵而只有一个嘴巴,后面知道了,这是想让我们多听少说,但有一个很有意思的点是:人类的听觉往往具有选择性,我们会倾向的听取自己感兴趣的或者喜欢的声音而忽略别人的声音,随着AI语音分离技术的攻克,未来的语音交互系统也将具备选择和识别的能力,即使是同时段多人对话的情景下, 智能语音也能区分不同的声音指令并对此作出相应的反馈,从而提升多人对话体验。
如果说AI时代前十年是为了解决医疗、教育等行业问题,那么在新AI时代的后十年,AI将更多服务于智能化的产品以及用户生活场景,新时代下的语音交互产品也将趋于拟人化和智能化,在提升消费者体验的同时,可以让我们获得更多的满足感,它可以和人类更频繁的互动、交流、聊天,它可以感知喜怒哀乐,像一个朋友一样和你聊天、对话,这样的智能汽车,你会期待吗?