智能

照片里谁最重要?Google 要让人工智能也能看懂

唐云路 · ·

学会之后,帮人类划重点。

一个场景里,有的人能够找出眼前哪些事情是需要注意的,有些人可能就会被不那么重要的事情所分神。而让人工智能识别一张图片里哪一部分才是传递信息的关键部分,当然比人脑判断更难。

一场篮球比赛的转播里,画面容纳了几十个人甚至是上百人,让机器来“看”的话怎么找到最重要的人?

这周在拉斯维加斯举办的计算机视觉与认知模式大会(CVPR)上,Google 展示了和几所大学合作的研究成果:教人工智能判断一个场景中的关键信息。

上图列出了一场球赛中的三种常见场景:三分球、篮板球和投篮失败。

这项研究的目的是在同时有许多人的视频中,让计算机识别出最应该注意的球员,是 Google 和斯坦福大学合作的。

研究者利用递归神经网络设计了一个计算机视觉系统,给每一帧画面标注出“注意力模型(attention mask)”,图中红框中的对象都是在场上的球员,而关键的那一位则用蓝色方框和五角星标注出来,以此在动态的视频中跟踪关键人物。

在经过训练之后,这个系统不仅能够识别出当前画面中最重要的那个人,也可以识别出即将成为关键的部分,画面与画面之间的动作变化则将前后的关键部分连接起来。

而在 Google 与爱丁堡大学合作的另一项研究里,研究者们则用行走的动物来训练图像识别系统。

比如在荒野中活动的老虎,如果能够识别出画面中是一只老虎而不是别的什么动物,其实只是人工智能的第一步。这一次,图像识别系统的任务是学会找出每一帧画面里,老虎的四条腿都是怎么迈的,接下来它要如何迈步。

与以往的研究最大的不同之处在于,以往的研究是将画面中活动的物体当做一个整体,现在这项研究则将老虎的四条腿分别追踪,以此来预测接下来每条腿的运动轨迹。

图片来源 CVPR

Google 与加州大学洛杉矶分校、牛津大学以及约翰霍普金斯大学合作的研究则是是训练图像识别系统理解照片中不同部分的互动关系,生成更精准的描述,或者说,是更有意义的描述。

这些研究的内容如果让人来做,其实都相当自然,在看比赛的时候你会关注球员而不是观众,看到两个人对着电脑你能对他们正在做什么有一个简单判断,但这些对机器来说,都需要分别从头学起。

现在人类帮助机器学着“划重点”,还是希望有朝一日他们能够学会自己来。

题图来自 Siam Mandalay


原文链接 (已下线): https://www.qdaily.com/articles/28885.html
Wayback 快照: http://web.archive.org/web/20160905120718/http://www.qdaily.com:80/articles/28885.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3x727nv8vj30u047hkjm