智能

这家初创公司的任务，是让软件像人类一样理解图像

John Markoff · 2016-03-08 21:08:03 · ♥ 25

如何让电脑模拟人类的思维过程、让它们像人一样进行推理，依然是人工智能领域面临的一大挑战。

＊本文只能在《好奇心日报》发布，即使我们允许了也不许转载＊

理查德·索赫尔（Richard Socher）神色凝重。他正紧张地等待着他的人工智能程序回答一个简单的问题：“那个网球运动员是否戴了帽子？”

提示语“正在处理中”在他的电脑屏幕上徘徊不去，仿佛永远都不打算消失了似的。终于，程序给出了它的答案：“是。”——答题者换作是人，恐怕连一秒钟的思考时间都不需要。

索赫尔紧握了一下拳头，以示庆祝自己的小小胜利。他的公司算得上是硅谷初创公司大潮里的一朵小浪花，这些公司专注于推动新一代图形识别软件的发展，软件与日益庞大的数据库结合起来，正给人工智能领域注入新的生机与活力。

MetaMind 公司创始人兼总裁理查德·索赫尔。MetaMind 是一家开发人工智能软件的初创公司。图片版权：Jim Wilson/《纽约时报》

索赫尔的公司叫 MetaMind，创立于 2014 年，曾获商业软件公司 Salesforce 总裁马克·贝尼奥夫（Marc Benioff）和风险投资人维诺德·科斯拉（Vinod Khosla）的 800 万美元投资。MetaMind 坐落于加州帕罗奥图（Palo Alto）一片密密匝匝的办公区内，紧挨着斯坦福大学。

MetaMind 目前正致力于攻克人工智能软件研发过程中最棘手的难题之一。电脑已经开始能识别数字影像中的物体了，把捕捉到的人声转化成自然语言也已渐渐难不倒它们。但是，如何让电脑模拟人类的思维过程、让它们像人一样进行推理，依然是人工智能领域面临的一大挑战。

一系列被称作“深度学习”（deep learning）和“深度神经网络”（deep neural nets）的机器智能软件眼下正初显身手，试图令电脑拥有像人类一样处理问题的能力。

周日，MetaMind 发表了一篇论文。MetaMind 的研究人员正在研发能回答针对文本及数字影像内容进行提问的软件，这篇论文阐述的正是他们所取得的研究成果。

该研究可谓引人入胜，因为它显示出我们在开发能与人交流的“会话型”软件方面正取得稳定的进展。同时，MetaMind 公布的结果也让研究者们看到了现下的软件与人类能力之间的差距。

其他研究组织在早些时候曾对一些零散的技术问题进行过攻关，但至今为止，尚未有任何接近人类理解和思辨能力的通用计算机系统被研发出来。

五年前，IBM 公司的计算机系统“沃森”（Watson system）曾在益智问答节目《危险边缘》（Jeopardy!）中亮过一手，成功击败了人类选手。

去年，微软公司开发了一个名为“小冰”（Xiaoice）的“聊天机器人”程序。用户能跟它来一番“侃大山”，内容可以是各种通俗话题。

为了让小冰在对话中能给出接地气的反应，微软在中国的社交媒体网站上采集了大量人们交流互动的数据，开发出了一个巨大的数据库。有了这个数据库做智囊团，小冰在应对用户的各种提问或陈述时就能对答如流、让人信服。

2014 年，来自 Google、斯坦福和其他研究组织的计算机科学家们在被称为“场景理解”（scene understanding）的领域取得了重大突破。所谓“场景理解”，即通过结合不同类型的深度神经网络程序（deep neural net programs）的输出，使电脑具备认知某个场景或画面、并将其用自然语言描述出来的能力。

“训练”这些程序的方法是：人先对图像进行描述，然后向程序展示图像内容。通过这样的训练，软件将学会如何观察一个新图像，再用自然语言把它描述出来。

虽然计算机视觉（machine vision）至今仍是一个有待突破的难题，但所幸像索赫尔所创立的这类初创公司，以及 Facebook、微软和 Google 等行业巨头还有其他诸多研究机构一直都在技术攻关的道路上稳步地前行着。

在 MetaMind 最近发表的论文里，研究者们力挺自己公司的软件“动态内存网络”（dynamic memory network），认为它具备即时处理声音、影像和文本等输入信息的能力。

从 MetaMind 的软件设计可以看出，神经网络软件技术已经发展到了一个相当复杂精细的程度，具备了记忆一个语句序列并聚焦图像某个部位的能力。举个例子，当问到“猫尾巴上的毛组成的花纹是什么？”时，软件会回答“条纹”。这说明软件程序在寻找答案的过程里，仅仅关注了猫的尾部。

“要看一个软件是否真正理解了一个图像，另一个测试方法是看它能不能回答判断题，”索赫尔说。

他提到，MetaMind 正把这项技术推广到商业应用当中，自动化智能客服就是一个例子。比方说，有保险公司就曾问过 MetaMind，如果客户发来一封附有图片的电子邮件——图片内容可能是一辆受损的轿车，也可能是别的什么财物——以他们的技术，是否能对这样的邮件进行回复？

对于这个问题，研究界还在深入讨论采取怎样的技术手段才最合适，以及究竟哪种方法才能最好地衡量软件所取得的“进步”。

“看到他们也加入到‘问答大战’中来，我们感到相当兴奋，但我们觉得他们所挑的数据集不甚理想，”西雅图艾伦人工智能研究所（Allen Institute for Artificial Intelligence）总裁、计算机科学家奥伦·埃奇奥尼（Oren Etzioni）说。

相比之下，他自己的实验室则另辟蹊径，正在埋头研发能够解答标准化小学科学测试题的软件。

翻译：熊猫译社周圆

题图来自豆瓣

原文链接 (已下线): https://www.qdaily.com/articles/23457.html
Wayback 快照: http://web.archive.org/web/20180701204712/http://www.qdaily.com:80/articles/23457.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3wmkz851tj30u049ukjl

这家初创公司的任务，是让软件像人类一样理解图像

这 家 初 创 公 司 的 任 务 ， 是 让 软 件 像 人 类 一 样 理 解 图 像

这家初创公司的任务，是让软件像人类一样理解图像