智能

计算机再厉害,识图还是比不上人类

王嘉俊 ·

Google、百度以及 Karpathy 的看图比赛,到底哪个更厉害?先战胜我们人类再说。

最近来自斯坦福大学的超级计算机 Karpathy 参加了一个计算机识图大赛 ILSVRC,挑战来自 Google 的计算机 ConvNet。它们要把 ImageNet 中的图片归类到 1000 种不同的类别中。
Karpathy 之前就有过相关的经历,2011 年它和来自斯坦福大学的计算机比赛,那时候它们需要把图片归类到 10 个类别中。由于类别很少,而且图片库也只有 5 万张左右,Karpathy 赢的非常轻松,以 94% 的正确率秒杀了计算机 80%。
但这次难度显然更大,一方面是图片库非常大,超过了 120 万张,类别也从 10 种增加到 1000 种。所以在 9 月份的第一次比赛中,Karpathy 可算是输惨了。当它看到超过 120 个品种的狗狗,它能做的就是汗流浃背艰难识别。最终结果也没有悬念,Karpathy 的正确率只有 85%,而 ConvNet 做到了 93.4%。

但 Karpathy 不甘心。它进行了一系列训练,而它的聪明之处在于使用 ConvNet 的预测结果来建立模型,这能够把 1000 种类别记忆精简到 100 种。但这依然非常困难,经过两个星期 50 个小时的训练,他重新参加了比赛,并取得了 94.9% 的正确率。
但在这次比赛中,计算机和人各自的优势也显现出来,从两者在不同类别的优势中能够获得一些启示。
在对小物品的归类中,Karpathy 有明显优势。从结果看,计算机在识别小物品时正确率只有 78%,而 Karpathy 几乎全对。对人们来说,只要物体肉眼能够看清楚,那么物品尺度的大小差别不会影响判断结果。但计算机会遇到很多麻烦,例如手中微小的羽毛,它就很难识别。这其实和图片大小以及电脑识别算法有关系,因为计算机通过提取对象的关键特征来识别,而小物品的特征信息可能比较模糊,这时候就容易犯错误。
计算机对滤镜也很头疼。对于 Karpathy 来说,光线不同对判断物品几乎没有影响,但是计算机就不行了。一张相片添加的滤镜会破坏各个部分的光线关系,当计算机面对这些模式的光线关系时,就很容易被欺骗。从结果来说,被滤镜处理过的相片机器人识别正确率是 87%,而 Karpathy 几乎达到 100%。
抽象物品也是计算机不擅长的领域。例如漩涡、毛茸茸的玩具、阴影、或者一些 3D 图像,计算机碰到就容易傻眼。ImageNet 的图片库中这类图像也没有抽象到毕加索的程度,所以结果就是 Karpathy 没有犯错,计算机的正确率只有 94%。
当然计算机还是在某些领域找回了骄傲。狗狗依然是 Karpathy 的硬伤,面对那 120 多种狗狗,以及猴子、蛇等动物,这些纹理细致的动物让 Karpathy 只能做到 72% 的正确率。计算机表现的要好得多,它能够做到 93%。
在 Karpathy 之后,百度也参加了这个比赛。百度给出了自己的技术方案,其中着重平衡了滤镜带来的影响,并用多角度进行训练。这使得它能够获得 94.02% 的正确率,超过了 Google ConvNet 的 93.4%。
不过这都是在公平的原则下比赛,因为人类相比计算机最大的优势是可以欺骗。在《三体》中人类依靠谋略性战胜了三体人的透明思维,在这里人类同样有压倒性的优势。
例如进化算法就能做到这一点。研究人员把一幅图像做细微修改,然后把两幅图像一并提交给计算机识别,并保存计算机视角下更接近原图的图像。一直进行这个步骤直到得到确信度超过 99% 的图像,得到了下面的结果。例如黑黄相接的图片,计算机会告诉你这是校车。

计算机视觉在人工智能上具有非常重要的意义,例如无人驾驶、智能红绿灯、智能监控等领域。但计算机要在复杂、多变和充满欺骗的社会中学会如何判断和生存,依然是一件非常困难的事。

题图来自:Gunnars


原文链接 (已下线): https://www.qdaily.com/articles/5481.html
Wayback 快照: http://web.archive.org/web/20190623164846/https://www.qdaily.com/articles/5481.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3wh5q4chhj30u03q64qp