智能

计算机再厉害，识图还是比不上人类

王嘉俊 · 2015-01-23 16:15:25

Google、百度以及 Karpathy 的看图比赛，到底哪个更厉害？先战胜我们人类再说。

最近来自斯坦福大学的超级计算机 Karpathy 参加了一个计算机识图大赛 ILSVRC，挑战来自 Google 的计算机 ConvNet。它们要把 ImageNet 中的图片归类到 1000 种不同的类别中。

Karpathy 之前就有过相关的经历，2011 年它和来自斯坦福大学的计算机比赛，那时候它们需要把图片归类到 10 个类别中。由于类别很少，而且图片库也只有 5 万张左右，Karpathy 赢的非常轻松，以 94% 的正确率秒杀了计算机 80%。

但这次难度显然更大，一方面是图片库非常大，超过了 120 万张，类别也从 10 种增加到 1000 种。所以在 9 月份的第一次比赛中，Karpathy 可算是输惨了。当它看到超过 120 个品种的狗狗，它能做的就是汗流浃背艰难识别。最终结果也没有悬念，Karpathy 的正确率只有 85%，而 ConvNet 做到了 93.4%。

但 Karpathy 不甘心。它进行了一系列训练，而它的聪明之处在于使用 ConvNet 的预测结果来建立模型，这能够把 1000 种类别记忆精简到 100 种。但这依然非常困难，经过两个星期 50 个小时的训练，他重新参加了比赛，并取得了 94.9% 的正确率。

但在这次比赛中，计算机和人各自的优势也显现出来，从两者在不同类别的优势中能够获得一些启示。

在对小物品的归类中，Karpathy 有明显优势。从结果看，计算机在识别小物品时正确率只有 78%，而 Karpathy 几乎全对。对人们来说，只要物体肉眼能够看清楚，那么物品尺度的大小差别不会影响判断结果。但计算机会遇到很多麻烦，例如手中微小的羽毛，它就很难识别。这其实和图片大小以及电脑识别算法有关系，因为计算机通过提取对象的关键特征来识别，而小物品的特征信息可能比较模糊，这时候就容易犯错误。

计算机对滤镜也很头疼。对于 Karpathy 来说，光线不同对判断物品几乎没有影响，但是计算机就不行了。一张相片添加的滤镜会破坏各个部分的光线关系，当计算机面对这些模式的光线关系时，就很容易被欺骗。从结果来说，被滤镜处理过的相片机器人识别正确率是 87%，而 Karpathy 几乎达到 100%。

抽象物品也是计算机不擅长的领域。例如漩涡、毛茸茸的玩具、阴影、或者一些 3D 图像，计算机碰到就容易傻眼。ImageNet 的图片库中这类图像也没有抽象到毕加索的程度，所以结果就是 Karpathy 没有犯错，计算机的正确率只有 94%。

当然计算机还是在某些领域找回了骄傲。狗狗依然是 Karpathy 的硬伤，面对那 120 多种狗狗，以及猴子、蛇等动物，这些纹理细致的动物让 Karpathy 只能做到 72% 的正确率。计算机表现的要好得多，它能够做到 93%。

在 Karpathy 之后，百度也参加了这个比赛。百度给出了自己的技术方案，其中着重平衡了滤镜带来的影响，并用多角度进行训练。这使得它能够获得 94.02% 的正确率，超过了 Google ConvNet 的 93.4%。

不过这都是在公平的原则下比赛，因为人类相比计算机最大的优势是可以欺骗。在《三体》中人类依靠谋略性战胜了三体人的透明思维，在这里人类同样有压倒性的优势。

例如进化算法就能做到这一点。研究人员把一幅图像做细微修改，然后把两幅图像一并提交给计算机识别，并保存计算机视角下更接近原图的图像。一直进行这个步骤直到得到确信度超过 99% 的图像，得到了下面的结果。例如黑黄相接的图片，计算机会告诉你这是校车。

计算机视觉在人工智能上具有非常重要的意义，例如无人驾驶、智能红绿灯、智能监控等领域。但计算机要在复杂、多变和充满欺骗的社会中学会如何判断和生存，依然是一件非常困难的事。

题图来自：Gunnars

原文链接 (已下线): https://www.qdaily.com/articles/5481.html
Wayback 快照: http://web.archive.org/web/20190623164846/https://www.qdaily.com/articles/5481.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3wh5q4chhj30u03q64qp

计算机再厉害，识图还是比不上人类

计 算 机 再 厉 害 ， 识 图 还 是 比 不 上 人 类

计算机再厉害，识图还是比不上人类