传说中的“读唇术”终于有专门的学习软件了

2016-11-09 11:32:28     作者:Newsboy      来源:腾讯数码

标签: 读唇术 theverge

牛津大学研究人员开发出了一种“读唇术”系统,借助人工能智能深度学习来读懂人的唇语,未来或能够帮助听力受损人群。

The Verge中文站 11月9日报道

“ 读唇”是一门技术活,国外测试实验发现,大部分人在别人说法时,通过观看后者的嘴唇动作,只能辨别出十分之一的单词,即便是所谓的唇语专家,其准确识别率也是不够理想。不过,牛津大学研究人员称,人工智能技术——比如深度学习,就能够帮助解决这样的问题。

众所周知,通过获取大量数据来寻找“共同点”的人工智能技术能够提升音频语言识别,使其达到跟“面对面”对话一样的准确率,为什么它就能不能完成“读唇”的任务呢?

牛津大学人工智能实验室的研究人最新发表的论文中提到,他们使用深度学习技术开发出了一种“读唇”软件,他们的软件名为“LipNet”,它的“表现”要远胜于那些唇语解读者:在某些测试中,LipNet软件能够达到93.4%的准确率,而唇语解读者的准确率只有52.3%。

即便是现在还处在初期阶段,但这款软件运行的速度已经非常快,几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度。

研究人员选用了一组数据库,用它对这套系统进行训练和测试。测试中,研究人员收集了来自34名志愿者所录制的短视频。在视频中,志愿者读取的是一些“毫无意义”的句子(比如插图说明),每个短视频只有三秒长,并且每个句子都采用非常简单的句式结构:命令动词+颜色+介词+字母+数字+副词,比如“set blue by A four please”或者“place red at C zero again”。

事实上,这些句子有它的局限性,比如,它们仅仅使用了四个不同指令和颜色词语,这也是引来了该领域其他研究人员的质疑,他们认为这份研究报告水分太大,让人难以信服。

不过,情况并非如此。在接受采访时,这份报告作者,同时也是两名研究人员Yannis Assael和Brendan Shillingford承认,他们的研究受限于单词和语法的限制。不过,这是由于可使用的数据有限,这个数据库非常小,但测试结果也说明了,它们能够在更大的数据库中也同样表现出色。”

Assael 和 Shillingford 都强调,他们的研究成果应用在监控领域,道理很简单,“读唇术”要求你需要注视目标人的嘴,这也就意味着,摄像头必须摆好到最佳位置来获取好的结果。“从技术层面来看,想要在监控领域应用读唇术,这是非常、非常困难的。”Assael表示。

不过,这两名研究人员表示,读唇人工智能能够帮助到那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。

比如,这类人群可以佩戴内置摄像头的眼镜,他们在参加聚会的时候可以清楚地拍摄出目标人物说话时嘴唇动作,然后使用这款软件来实时将嘴唇“语言”翻译成文本,然后在将其语音传输到佩戴者耳朵中。

“只要你有语音识别和摄像头,我们就可以提升它。”Assael表示。他也提及到,苹果Siri或者谷歌Now语音助手或将能够应用他们的软件。

未来,或许我们就不敢对着自己的电脑讲话了,原因很简单,它们可能会读懂我们说得内容。(原作者James Vincent 编译:Newsboy)

精彩视频:

点击查看英文原文

【美国The Verge作品的中文相关权益归腾讯公司所有,未经授权,不得转载、摘编等。】

返回沙发首页  
沙发管家微信
扫描关注沙发管家微信 QQ群: 沙发网官方群 微博:

资讯评论

亲,你需要登录后才能进行评论喔!

还没有评论,快来抢沙发吧!

提示

相关文章推荐

热门设备安装方法 查看更多>>

最新设备

智能电视 / 盒子评测

安装指南

应用

热门专题