导读:随着在COVID-19疫情封锁期间会议转移到网上,许多人发现,叽叽喳喳的室友、垃圾车和其他响亮的杂音会打断了重要的对话。这经历启发了华盛顿大学的三位研究人员(他们在COVID-19期间是室友)研发出了更好的耳塞,为了增强说话人的声音和减少背景噪音,“ClearBuds”使用了一种新的麦克风系统和第一个实时操作的机器学习系统,该系统可以在智能手机上运行。
随着在COVID-19疫情封锁期间会议转移到网上,许多人发现,叽叽喳喳的室友、垃圾车和其他响亮的杂音会打断了重要的对话。这经历启发了华盛顿大学的三位研究人员(他们在COVID-19期间是室友)研发出了更好的耳塞,为了增强说话人的声音和减少背景噪音,“ClearBuds”使用了一种新的麦克风系统和第一个实时操作的机器学习系统,该系统可以在智能手机上运行。
研究人员于6月30日在ACM移动系统、应用和服务国际会议上介绍了这个项目。
“ClearBuds在两个关键方面区别于其他无线耳机,”Paul G. Allen(保罗·艾伦)计算机科学与工程学院的博士生Maruchi Kim说。首先,ClearBuds使用了双麦克风阵列,每个耳塞上的麦克风可以产生两个同步的音频流,提供信息,并允许我们在空间上以更高的分辨率分离来自不同方向的声音。其次,轻量级的神经网络进一步增强了说话人的声音。”
虽然大多数商业耳塞也在每个耳塞上都有麦克风,但只有一个耳塞在同一时间主动向手机发送音频。使用ClearBuds耳机,每个耳塞都会向手机发送一串音频,研究人员设计了蓝牙网络协议,允许这些数据流在70微秒内同步。
该团队的神经网络算法在手机上运行来处理音频流。首先,它会抑制任何非语音的声音,然后它会隔离并增强同时从两个耳塞扬声器的声音——传入的任何噪音。
Allen School的博士生Ishan Chatterjee说:“因为说话者的声音与两个耳塞的距离很近,而且距离大致相等,所以神经网络可以训练成只关注他们的声音,消除包括其他声音在内的背景声音,这种方法和你自己耳朵的工作原理非常相似,它们利用声音到达你左右耳朵的时间差来判断声音来自哪个方向。”
当研究人员将 ClearBuds 与苹果的AirPods Pro 进行比较时,ClearBuds 表现更好,在所有测试中实现了更高的信号失真比。
”Allen School的博士生Vivek Jayaram说:“当你考虑到我们的神经网络在iPhone上运行不到20毫秒这一事实时,这是非常了不起的,与通常用于运行神经网络的大型商业显卡相比,iPhone的计算能力只是一个小部分,我们如何在保持输出质量的同时减少传统神经网络的大小?这是我们在这篇论文中必须解决的挑战的一部分。
研究小组还在“野外”对ClearBuds进行了测试,他们记录了8个人在嘈杂的环境中阅读“古登堡计划”,比如在咖啡店或繁忙的街道上。然后,研究人员让37人对这些10到60秒的录音片段进行打分,参与打分者认为通过ClearBuds的神经网络处理的片段具有最好的噪音抑制和最好的整体聆听体验。
研究人员说,ClearBuds的一个限制是人们必须同时戴上两种耳塞才能获得噪音抑制的体验。
但该团队表示,这里开发的实时通信系统可以用于各种其他应用,包括智能家居扬声器、跟踪机器人位置或搜索和救援任务。
团队目前正在努力提高神经网络算法的效率,以便它们能够在耳塞上运行。