科技

AI语音助手普遍存在的唤醒词问题思必驰能否解决

AI语音助手普遍存在的“唤醒词”问题思必驰能解吗?

遥想2011年,Siri被成功移植到iPhone4上,随后,与手机语音对话的新玩法引起了消费者对语音助手的兴趣。2014年,亚马逊推出搭载Alexa语音助手的智能音箱Echo,引领了全球智能音箱的热潮。不过,历经多年,语音助手既没有成为消费者离不开的智能助手,还因接连爆出的“唤醒词”问题引发担忧。这些问题包括隐私泄露、未经用户允许的情况下上传录音等。

8月28日,苹果就Siri隐私问题道歉并表示会做出改变。这是因为7月26日英国《卫报》报道称,Siri会在未经用户允许的情况下,将用户录音上传到服务器,并发送给苹果外包的承包商进行人工分析。而这些录音包含敏感信息,如使命、位置、联系方式等。

同样在7月,比利时新闻网站VRT报道称Google涉嫌通过Google Assistant语音助手泄露用户私人谈话内容。此外,在4月份,有报道指出亚马逊负责评估Alexa语音助手用户指令团队可以获得用户定位信息,即便是具体家庭住址。

为何这些公司频繁遭遇隐私问题?上海深聪智能CTO朱澄宇接受雷锋网专访时表示:“这些公司目的并非真的要侵犯用户隐私,而是为了采集一些数据进行训练让语口更为智能。”深聡智认为这确实是收集录言目的所在,但同时也认识到了需要保护好这个过程中的个人信息和权益。

如何保护隐私?朱澄宇提出了两个想法:首先,可以采用公认方法或者制定相应标准,在保护隐私的情况下收集用于训练数据;其次,当技术成熟之后,对于训练需求可能不再那么旺盛,“唤醒词”的事情可能就不会发生。但目前,我们既还没有看到数据收集标准,也未达到AI技术成熟阶段,因此如何保护隐私仍是个挑战。

为了解决这一难题,思必驰提供融合自己的算法与深聪AI芯片的一体化方案。基于强大的AI芯片,他们尽量把云端工作搬到终端,不需要将所有声音都上传到云端,这就是最大程度保障用户隐私的手段。不过,要实现这一点,就必须提升终端AI算力的性能。朱澄宇指出思必驰算法可以与深聪芯片进行深度融合,可以用通用芯片十分之一甚至百分之一的算力就达到的效果,对于深聡而言目标是在提供足够强大而非最强大的算力支持。

什么样的算力对于AI语言处理芯片来说是一个合适的情景?由于神经网络规模小于图像网络,所以图像识别比语言识别更高要求。但从处理复杂程度看两者相当,因为将声音转换文字后还有涉及到多轮对话等复杂任务。在这种情况下,只有预估市场需求,然后转换成硬件指标,并考虑快速迭代才能应变变化,这就是软硬协同过程。例如,当定义下一代芯片时,如果需要本地语言识别,就会根据当前需求评估然后增加冗余以准备未来升级扩展功能。

TH1520作为第一代AI核心,由双DSP架构组成内置codec编码器以及大容量存储单元,同时采用了特定的加速机制,使其效率提升10倍以上,并且支持未来升级和扩展功能。此前已流水开始验证,现在已经量产,其第二代则进一步增强声纹识别能力,以满足更加复杂任务要求。

低功耗对于提高体验至关重要,而高性能则决定着是否能够完成更多复杂任务。一方面软硬件优化减少误触事件,一方面更高能效设计减少电池消耗。这正如每个家中拥有多个使用者的环境中,更好的声纹识别能力能够提供更加个性化服务。

此外,更高能效还意味着结合视觉和听觉功能,为我们带来一个全新的交互方式,让我们的生活更加便捷、高效。如果专用的或通用的哪种形式才是最佳选择,则取决于哪种类型能够最有效地满足应用程序需求。当某项技术统治一切,那么它很可能成为通用的选项,但至少目前来看,每种场景似乎都有自己的优势和劣势,以及不同的应用场景。

总之,无论是在提高安全性还是提供更丰富多彩的人机交互体验上,都需要不断创新和进步。在这个过程中,我们也期待那些致力于开发这样的产品的人们继续探索前沿科技,为我们的生活带来更多惊喜。

最后,不得不说的是,无论时代怎样发展,每一次革命性的发现都会带动社会文化的大变革。在我们追求完美无瑕的人工智能世界里,每一次突破都是向着那一步迈进的一个小脚步。而今天,我们正处在这样一个历史节点——从简单机械工具走向高度自动化的人类世界,从单一输入输出走向全面模态交流——这是人类文明史上的又一个伟大飞跃。