智能
DeepMind 最近做了个新软件,它能读懂唇语
但是它的实际准确率其实存在争议
AlphaGo 背后的 DeepMind 最近有了新动向,它与哈佛大学的研究人员合作研发出了一套可以读懂唇语的软件。
在哈佛大学最新发表的论文中,他们研发的这个唇语阅读软件 LipNet 准确率高达 93.4%。这个准确率远高于此前研发出来的其他唇语设备。
哈佛大学的研究人员称,这是因为他们采用了不同的方法来训练 LipNet 的算法。为了让它能更准确的理解唇语,他们给计算机输入了近 3 万个带有情境的视频片段,每个片段有 3 秒时长,然后训练算法去匹配每个片段中每条句子对应的唇形和发音,而不是让其匹配每个单词的唇形和发音。
通过这个训练,他们的算法就能根据上下文情境,从单个单词的提示就能预测出整个句子。
但论文中提到如此高的准确率也遭受了质疑。因为在该研究中,他们用来训练算法使用的视频片段是经过精心挑选的。
这些视频中的人脸必须面向屏幕,说话时唇形要很明显,而使用的句法必须是标准的。但在真实的语言环境下,人们说话时所使用的句法并不是完全标准的。
Open AI 的人工智能方面的专家 Jack Clark 称,如果要想将这项技术应用到实际情境中,至少还需要在三个方面进行改进,包括增加人们实际对话场景的视频片段,实现多个角度识别唇语以及让算法能预测更多的短语组合或句式。
他还提到称,如果能在实际情境下应用,它会很有用,比如用到助听器中,或者被用来提高人工智能识别语音的准确度和反应速度上。
也有批评认为,它的应用也对公民的言论自由造成了威胁。
不过目前来看,这一切现在看起来还有点远。
题图 cdn
原文链接 (已下线): https://www.qdaily.com/articles/34267.html
Wayback 快照: http://web.archive.org/web/20190623180303/https://www.qdaily.com/articles/34267.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3xc0oy2g0j30u032a7wh