智能
图片搜索的新进展:Flickr 已经可以找到一只鸟了
收购图片识别公司一年之后,Flickr 能够找到那只鸟了。
韩梅梅:给电脑一张照片,是否能够识别它是在公园拍的?
李雷:那简单,我看看照片背后的地理位置信息,几个小时就能搞定!
韩梅梅:那…电脑能不能告诉照片里有没有小鸟呢?
李雷:呃…给我一个搜索团队,以及五年的时间,也许能告诉你答案。
来自 Fast Company 的消息,雅虎旗下的图片分享网站 Flickr 最近发起了一个线上活动 ”Park or Bird”,网站接收到用户上传的图片后会回应拍照地是否在公园,或者里面有没有小鸟。
这种技术属于图像识别的范畴,2013 年底雅虎收购了图像识别公司 IQEngine 和 LookFlow,如今终于有了少许成就。
对于雅虎这样的大公司来说,图像识别也是极其困难的事情。现阶段电脑还不能做到完全的图像识别,只能在某些领域反馈较准确的识别结果。
Flickr 这次用的是一种卷积神经网络 (convolutional neural networks) 的方法。卷积神经网络由 Hubel 和 Wiesel 在 20 世纪 60 年代研究猫视觉皮层时提出,而后日本学者 Fukushima 在 1984 年提出的神经认知机 (neocognitron) 可以看作是卷积神经网络的第一个实现网络。它有一些创新的识别方法,例如权值共享、图像直接输入等,以此降低网络模型的复杂度。现在卷积神经网络已经成为图像识别和语音分析领域的重要方法。
听起来很难懂,我们通俗的说明小鸟的识别过程。
Flickr 的图片识别网络有很多能力不同的层级,有一些能够识别基本的形状,例如直线、边角、圆弧等;有一些能够识别进阶的形状,例如圆形、方形等;有一些能够识别高级的形状,例如眼睛、鼻子、甚至鸟头和翅膀。
这些不同的层级之间是逐渐叠加的,例如做到了基本形状的识别后,就能够通过叠加算法识别出进阶的形状,这样一直往上累积识别出鸟嘴、鸟头,建立不同层级之间的对应关系。
而当用户上传一张图片时,Flickr 的图片识别网络能够对图片逐层向下分解,分别在各个层级进行图片匹配,给出 Yes 或 No 的答案,最后汇总到一起得出是否鸟类的结论。
图片识别技术能给 Flickr 带来很大的价值。在互联网上有很多图片是没有标签的,图片识别技术能够自动给它们建立标签进行分类,这样你在搜索的时候就能够有更好的反馈结果。在照片之外,它也能够在面部识别和机器人视觉上有所贡献。
图像识别目前是巨头之间的游戏,因为它需要大量的数据和强大的计算能力,但是在一些垂直领域小公司也并非没有机会。例如最近成立的 Dress + 推出了以图搜衣的应用,通过比配上传的图片匹配出相似度极高的单品。
随着图像识别技术的进一步发展,也许以后真的能够做到所见即所得,以图搜索这个世界。
原文链接 (已下线): https://www.qdaily.com/articles/3273.html
Wayback 快照: http://web.archive.org/web/20190623151759/https://www.qdaily.com/articles/3273.html
原始截图: http://ww3.sinaimg.cn/large/007d5XDply1g3v6xxlzshj30u02yue81