导读:VSR领域主要是训练人工智能在没有任何音频输入的情况下读懂唇语。
据加拿大媒体VICE报道,近日,视觉语音识别(VSR)领域又迎来重大突破,爱尔兰初创公司Liopa开发出一种名为SRAVI的针对语音障碍情况下语言识别app。并且SRAVI有望成为首款可供公众购买的唇语识别工具。
唇语识别是一项集机器视觉与自然语言处理于一体的技术,通过分析说话人唇部运动,结合大数据匹配出有最大可能性自然语句。英特尔、谷歌和我国的搜狗等公司都训练人工智能(AI)读懂唇语。并且唇语识别AI也开始实验性的应用于医院、电力公司、公共交通等领域。
一、SRAVI可识别短语,准确率达90%
一位患者坐在病床上,他脖子上缠有带开口的绷带,供氧气管套管通过并固定住。由于最近接受手术,这位患者无法发声。医生拿起智能手机,记录下病人说的短语。这款名为SRAVI的app会分析唇部运动,并在两分钟内返回其识别结果——“我需要吸引器”。
这似乎只是一个简单的互动,在某些方面,SRAVI非常简单。它能准确识别几十个短语,准确率约为90%。
VSR领域主要是训练人工智能在没有任何音频输入的情况下读懂唇语。几十年来,研究人员一直致力于此类技术,但事实证明,即使深度学习系统的进步,帮助解决了其他具有里程碑意义问题,AI读懂唇语仍是一项具有挑战性的任务。这项研究受到广阔商业应用前景预期推动——从应用于监控工具到静音通信app,以及改进虚拟助手性能。
Liopa公司正在为SRAVI申请欧洲I类医疗器械认证,并希望能在8月之前完成。这样公司就可以向医疗服务商销售该产品了。
二、唇语识别AI商业化不仅面临隐私问题
唇语识别并不是一个全新的人工智能方向,许多科技巨头也一直在研究唇语识别AI,早在2003年,英特尔公司就开发出了唇语识别软件Audio Visual Speech Recognition(AVSR),2016年谷歌子公司DeepMind唇语识别技术已经可以支持17500个词,新闻测试集上识别准确率首次达到50%以上,2017年搜狗推出中文唇语识别系统。
随着唇语识别AI成为一种可行的商业工具,技术人员和隐私监管机构越来越担心,它未来会被开发成什么样以及会部署在哪些领域。
例如,SRAVI并不是Liopa正在研究的唯一一款唇语识别AI。该公司还和英国一家国防研究机构合作开发另一种工具,使执法机构能够通过无声闭路电视录像进行搜索,并识别人们何时说出过某些特定关键词。
美国摩托罗拉公司(Motorola Solutions)有一项旨在帮助警察的唇语系统专利。
美国无人机初创企业Skylark Labs创始人告诉Motherboard(VICE旗下科技版块),其唇语系统目前已部署在印度的一些私人住宅和一家国有电力公司中,以检测粗俗语言。
英国生物识别和监控摄像机专员弗雷泽桑普森(Fraser Sampson)接受Motherboard采访时说:“从我的角度来看,这是唇语识别可应用的其中一个领域,这是关于‘我们可以做到,并不意味我们应该这样做’一个很好的例子。我在这个领域的主要关注点不在技术可以和不可以做什么,而是人们相信它可以做到其所说的,这会产生寒蝉效应。如果这项技术限制大众在公共场合发言,那么我们将面临的不仅仅是隐私问题了。”
唇语识别AI的出现让人想起了人脸识别技术。几十年来,人脸识别技术一直是个小众研究领域,然后它从2000年代初开始作为监视工具悄然迅速商业化。
人脸识别技术的许多问题直到最近才被公之于众,很大程度上还要归功于人脸识别受害者积极研究和行动。具体来说,麻省理工计算机科学家乔伊·博拉姆维尼(Joy Buolamwini)和前谷歌AI伦理学家提姆尼特·格布鲁(Timnit Gebru)在2018年发表了一篇具有重要意义的论文,论文中首次揭示了人脸识别用于女性和有色人种识别准确性较低。当这些担忧进入主流话语体系时,电话、私人企业中人脸识别的应用已经无处不在。
监控摄像头遍布美国许多城市的街头巷角。至少有三名黑人男子因为人脸识别不准而被错误逮捕,实际数字几乎肯定更高,而且该技术还被用于追踪美国“Black Lives Matter”运动的抗议者,以及其他各种可疑人员。在过去两年中,也就是在该技术首次大规模公开部署近20年后,美国草根运动导致十多个城市和州的警察和个人开始禁止使用人脸识别技术。
大众对人脸识别技术的强烈反对推动了AI研究人员思维转变,即他们该如何考虑其研究发现的未来应用。例如,神经信息处理系统进展大会(NeurIPS)去年首次要求研究人员在提交论文时,加上关于新研究可能会对社会产生哪些影响的论述。
《人工智能:计算机如何误解世界(Artificial Unintelligence: How Computers Misunderstand the World)》一书作者梅雷迪思·布鲁萨德(Meredith Broussard)告诉Motherboard:“研究很棒,但是当我们发现某一特定知识或者研究路线具有毁灭性后果时,作为研究人员,我们有责任停止它并实施相应措施。”
三、监控领域应用唇语识别需受管控
唇语识别AI作为一项商业技术仍处于起步阶段,但技术早期关注于在监控方面应用引发了人们的担忧,科学发展如此之快,当后果再次显现,可能为时已晚。
“这项技术刚开始发展的确太快了,不过在去年,开始有论文围绕VSR技术伦理问题进行讨论。”斯塔夫罗斯·佩特里迪斯(Stavros Petridis)说,他最近在Facebook工作,但与Motherboard谈到了他之前在英国帝国理工学院(Imperial College London)的研究。“鉴于目前还没有可商用的唇语识别app,这次很有可能在唇语识别AI技术完全商业化之前才考虑伦理问题。”
帝国理工学院博士生罗德里戈·米拉(Rodrigo Mira)告诉Motherboard,他和他的同事知道自己研究的领域是有争议的。他将该研究工作和渗透测试进行了比较——渗透测试是一种在计算机系统中寻找漏洞以修复它们的网络安全实践。换句话说,这项研究是允许受道德规范约束的学术机构在新技术被犯罪分子利用之前发现它。
米拉表示:“唇语识别AI的主要问题是人们总是会谈论政治。这不是我们是否应该停止研究,而是我们有能力通过观察人们来了解他们在说什么时,我们应该用它做什么?阻止不道德地使用该技术的方法,不是关闭帝国理工学院,解决这个问题的方法是把它作为一个政治问题来处理。”
人工智能伦理学家同意,政府对人脸识别和唇语识别AI等生物识别监控技术应尽早和大力度监管,这对于防止歧视和伤害是必要的,但到目前为止,许多政府未能制定相应法律。这就是为什么研究人员不仅有责任考虑技术应用的潜在后果,而且要主动将最可能受到该技术伤害人群纳入研究决策过程的原因。不过专家表示,现有VSR系统并未考虑这些因素。
美国AI Now Institute研究员莎拉·迈尔斯·韦斯特(Sarah Myers West)告诉Motherboard:“这是为了积极创造一种技术,或许会有有害用途,而不仅停留在识别和减轻现有技术中的漏洞。研究人员并不是总能够自己进行这些伦理性评估。这就是为什么在整个过程中让可能受影响的群体参与进来,以预测和避免潜在有害的其他用途,是如此重要。”
四、唇语识别技术不断优化,完整对话识别仍需时间
Liopa的CEO利亚姆·麦奎伦(Liam McQuillan)告诉Motherboard,该公司至少需要一年的时间才能拥有满意的从闭路电视录像中读出关键词的系统,公司已经考虑过隐私问题。“这里可能会有人担心实际最终会禁止使用该技术……我们当然不会这样把Liopa押在这个项目上面,即使有充足研究资金——该项目由英国国防部国防与安保加速器(British Defense and Security Accelerator)资助。”
麦奎伦还表示,该公司正在积极寻求解决潜在的种族或性别偏见,方法是通过收集多种数据来训练其算法。数据收集来源包括一组多样化的YouTube剪辑视频,通过收藏应用程序提供视频的志愿者,以及一家专门管理包含不同种族和民族数据集的公司。不过目前Liopa公司尚未发表任何关于其系统在不同人口群体中表现相关的研究。
Motherboard找到了一家声称正在积极销售唇语识别AI系统的公司Skylark Labs。Skylark Labs已经将唇语识别技术融入监控市场。
Skylark Labs创始人兼CEO阿玛乔特·辛格(Amarjot Singh)告诉Motherboard,该公司最初向印度的警察局推销其包含唇语识别、人脸识别、暴力和武器检测算法的技术套件。该公司发现,鉴于在拥挤公共场所使用唇语识别功能面临的挑战,用户对此功能兴趣不大。
Skylark Labs已经转向研究其他唇语识别在其他场合的用途。辛格表示,公司的唇语识别AI技术目前正在印度旁遮普邦电力公司有限公司进行试点,以检测员工互相打扰的情况。他说,有几个人还购买了这项技术来监控他们的保姆。Skylark Labs指出,它的唇语识别AI可以检测大约50个与诅咒、虐待和暴力相关的不同词语。不过根据当地媒体报道,辛格发表过关于暴力检测和人脸识别的研究,印度警方确实使用Skylark的无人机来增加社交距离,不过辛格和公司都没有发表任何关于唇语识别AI的研究。
Motherboard联系了旁遮普邦电力公司有限公司,有人表示家里使用过唇语识别技术,但没有收到更多回复。
辛格说:“我们正在自然场景中进行研究,并试图解决对人身安全有直接影响的用例。我认为这有好处,因为设计师能够控制系统应该标记的词,所以我认为它还可以。这里风险是,一旦你开始校准系统在自然场景中获取日常语言,词语在是否符合道德规范方面可能会有瑕疵。”
接受采访的研究人员和公司高管告诉Motherboard,实现唇语识别AI能解释完整对话,还需要数年时间。
这项任务非常具有挑战性——即使是专业的人类唇语读者,实际上在逐字解释方面也很差。2018年,DeepMind发表了一项研究,揭示了其最新的全句唇读系统,并使用大型的、定制数据集进行测试。AI在包含完整句子的视频上实现了41%的单词错误率。在没有提供上下文主题相关信息情况下,观看类似纯视频剪辑样本的人类唇语读者单词错误率为93%,而在给定视频标题、主题类别和句子中的几个单词时,错误率也有86%。
帝国理工学院研究小组本月发表论文,描述了一个完整句子唇语识别系统,该系统在较小的、公开可用的400小时视频数据集上进行训练,可以实现低至37.9%的单词错误率。
当涉及到单个关键字唇读领域,Liopa和Skylark Labs同样正在追求的目标,唇语识别技术准确度要高得多,并且仅在去年就有显著提高。2017年,在Wild数据集中唇语阅读基准准确率最高是83%。2020年之前,这一最高纪录保持不变,根据帝国理工学院与三星合作发表的这篇论文,准确率现在突破到88.5%。
但是,很难知道真正的顶峰是什么。DeepMind在2018年之后没有发表任何关于唇语项目的进一步研究,并且拒绝讨论。与Motherboard沟通的许多研究人员都不愿随意推测大型科技公司打算用这种新兴技术做什么,或者它何时何地开始对公众产生明显影响。
米拉说,人工智能和机器学习过去10年向大家展示的一件事是,未来难以预测。但低估技术发展确实是不明智的。
结语:AI唇语识别超人类,隐私保护引担忧
目前,唇语识别技术的准确率已经超过人类,普通人的唇语识别率在10%,受过训练的残障人士可能会达到40%。唇语识别工具大都已经超过50%,例如搜狗唇语识别技术在口语测试集上准确率为60%以上,在车载、智能家居等垂直场景下会有90%以上的准确率。
唇语识别技术应用场景多元,不仅可以帮助言语障碍人士进行沟通,还可以应用于远场环境下沟通,以及安防、验证等领域。同人脸识别技术一样,唇语识别技术的应用需要受到监督。未来在私人安全领域,唇语识别可能应用为一种新生物认证方式,在公共安全领域,唇语识别或会结合公共摄像头无声视频数据库来辅助案情分析。这就涉及到隐私保护问题,唇语识别应用中将涉及到大量隐私相关数据,其安全性需要得到保证。
来源:VICE