前 Google 数据科学家展示如何使用大数据,以及它为什么强大?
“本书将会展示如何最合理地使用大数据,并详细解释大数据为什么会这么强大。与此同时,你也会了解我和其他人使用大数据得到的发现。”
作者简介:
赛思·斯蒂芬斯—达维多维茨:《纽约时报》专栏作者,沃顿商学院客座讲师,前谷歌数据科学家。他在斯坦福大学获得哲学学士学位,并以美国大学优等生的身份毕业,之后获得哈佛大学经济学博士学位。他用新的大数据源揭示了不为人知的行为和态度,这一研究发现登上了《公共经济学》杂志和其他著名刊物。现居纽约市。
书籍摘录:
绪论(节选)
过去 4 年里,我每天都在分析谷歌数据。谷歌公司了解到我的种族歧视研究后,还聘我做了一段时间数据专家。而今,我继续作为专栏作家和数据记者为《纽约时报》考察这一数据。几年来的新发现所涉甚广:精神疾病、人类性行为、虐待儿童、人工流产、广告活动、宗教信仰、健康问题,等等。这些话题其实都很大,而这个几十年前并不存在的数据集,短短几年内便为我们提供了看待前述所有话题的全新视角,不可谓不惊人。经济学家及其他社会科学家一直在搜寻新的数据源,毫不客气地说,我确信谷歌搜索数据绝对是有史以来搜集到的人类心理数据集中最出色的一个!
然而,这一数据集并非互联网为当代人提供的了解世界的唯一一种工具。我很快就意识到还有其他数据金矿可挖。我下载了维基百科的全部内容,钻研了脸谱网上的所有资料,挖空了白人民族主义者网站“风暴前线”上的信息。此外,互联网上最大的色情网站之一也提供了全世界匿名人士的搜索和视频播放量的完整数据。也就是说,我早已深入了解现今所谓的“大数据”。不仅如此,我还采访了许多人,如学术界人士、新闻工作者和企业家等,他们也在探索这一新领域。对于他们的许多研究,本书会做讨论。
首先,我得承认我无法准确定义究竟什么是大数据。为什么?因为这本来就是一个模糊的概念。多大才算大?如果 18462 个观测值是小数据,那么 18463 个就算大数据吗?我更愿意采取一种包容性观点为其下定义:尽管我摆弄的数据大多来自互联网,但我也会考虑其他渠道。我们正在经历各种可用信息数量和质量的双重激增。很多新信息都是从谷歌网站和社交媒体流出的,其中一些是从前尘封于档案柜中的信息经过数字化之后形成的产品,还有一些源自那些致力于市场研究的新资源。本书中的一些研究完全没有使用大的数据集,而是使用一种全新的创造性数据研究法,这种方法在信息过剩的时代是至关重要的。
那么,到底为什么大数据如此强大呢?想想某一天散布在网上的所有信息吧—事实上,对于这样的信息有多少,我们是有一个确切数字的。在 21 世纪之初的平常日子里,人类每天可以产生 2.5×1018 字节的数据。
这些字节就是线索。
一个女人在某个周四下午倍感无聊,便用谷歌搜索更多的 “有趣的素笑话”。她查看邮件,登录推特,然后用谷歌搜索 “黑人笑话”。
一个男人心情不大好,便用谷歌搜索“抑郁症状”和“抑郁故事”。他还玩纸牌游戏。
一个女人在脸谱网上看到朋友发布的订婚消息,而她还单身,于是她屏蔽了这位朋友。
一个男人先是用谷歌搜索国家橄榄球联盟和说唱音乐,然后又问了搜索引擎一个问题:“梦到男人和男人接吻正常吗?”
一个女人点击网站 BuzzFeed 上“15 只最可爱的猫”的故事。
一个男人看到了同一个关于猫的故事,但他的屏幕上显示的是“15 只最乖巧的猫”,他没有点击。
一个女人用谷歌搜索“我的儿子是天才吗”。
一个男人用谷歌搜索“如何让我的女儿减肥”。
一个女人正和 6 个最好的女性朋友度假,所有的朋友都在说她们玩得有多开心,只有她偷偷离开,用谷歌搜索“丈夫不在身边的孤单”。
前面那个女人的丈夫也在和 6 个最好的男性朋友度假。他偷偷溜出来,用谷歌搜索“妻子出轨的迹象”。
这些数据中有一部分包含原本不会被任何人接收的信息。如果把这些信息整合起来,使之保持匿名状态以确保我们永远不会知晓任何特定个体的恐惧、欲望及行为,再加上数据科学,我们就会对人类有一个新的认识—他们的行为、他们的欲望和他们的本性。事实上,尽管听起来有夸大其词的风险,但我越来越相信,数字时代日益普及的新数据将大大拓展我们对人类的理解。我们以为自己看清了一滴池水,可显微镜却为我们展示了更多;我们以为自己看尽了夜晚的天空,可望远镜却为我们展示了更多;我们以为自己看懂了人类社会,可如今的数字数据却为我们展示了更多。这些数据也许就是我们这个时代的显微镜或望远镜吧—有了它们,人们才有可能提出重大乃至具有革命性的见解。
发表这样的言论不仅有夸大其词之嫌,而且有另一重风险—赶新潮。很多人都曾对大数据的影响做过很高的评价,但是他们缺乏证据。
这导致为数众多的大数据怀疑者对更大数据集的搜索不予理睬。作家兼统计学家纳西姆·塔勒布(Nassim Taleb)曾写道:“我不是说大数据中没有信息,事实上它包含很多信息,但问题是,提取信息比大海捞针还难,而这也是主要问题。”
因此,本书的主要目标之一,便是要就大数据能做什么这一问题提供一些缺失的证据。如果你愿意在海里捞针,本书就会告诉你如何才能在越来越广阔的海域里捞到那根针。我希望可以提供足够多的大数据案例,为人类心理及行为提供新的见解,如此一来,你就会逐渐看到真正具有革命性的事物的轮廓。
你现在可能会说:“等一下,赛思,你是说会有一场革命?!你这是在粉饰这些新的大数据集。到目前为止,你只用所有这些惊人的、非凡的、振奋人心的、开天辟地的数据主要告诉了我两件事:第一,美国有很多种族主义者;第二,人们(尤其是男人)夸大了他们的性行为次数。”
我承认,有时候新数据只是证实了显而易见的事情。如果你认为这些发现是显而易见的,等你读到本书第 4 章,我会向你展示谷歌搜索中条理分明而又无懈可击的证据,证明男人对自己的阴茎大小极为关注且有不安全感。等着吧,到那时你就会明白了。
可以这么说,证明那些你本就怀疑却缺乏证据的事情不可谓没价值,但怀疑某事是一回事,证明它又是另一回事。如果所有大数据能做的只是证实你的怀疑,那么这些数据也就不会那么具有革命性了。幸运的是,大数据能做的远不止于此。数据一次又一次向我证明,这个世界的运转方式与我之前的猜测恰恰相反!这里有一些例子,可能会令你感到更惊讶。
你可能会认为种族主义产生的主要原因是经济的不安全性和脆弱性。你可能会很自然地认为,一旦人们失去工作,种族主义就会加重。实际上,无论是种族主义搜索量还是“风暴前线”的会员数,都不会在失业之际走高。
你可能会认为,在过度教育的大城市中,人们的焦虑程度最高,城市神经质就是一个著名的刻板印象,但是,用谷歌搜索“焦虑症”或“焦虑救助”的结果反映出,在教育水平较低、家庭平均收入较低、农村人口密度较大的地区,焦虑程度更高。纽约州北部地区对焦虑的搜索率比纽约市更高。
你可能会认为,造成几十人甚至数百人伤亡的恐怖袭击过后,紧随而来的便是迅速蔓延的重度焦虑情绪。从定义来看,恐怖主义应该会引起恐惧感。我查看了反映焦虑的谷歌搜索,测试了一个国家自 2004 年以来在欧美国家所有重大恐怖袭击事件后的几天、几周和几个月内此类搜索的增长量。与焦虑有关的搜索平均增长量是多少呢?结果是,根本就没增长!
你可能会认为,人们心情低落时搜索笑话的概率更大。历史上很多伟大的思想家都曾说过,人类总会用幽默来缓解痛苦。幽默感一直以来都被视为应对生活中的沮丧、痛苦和不可避免的失望的方法。正如卓别林所言:“笑声是滋补品,是缓解和去除痛苦的灵药。”
然而,在人们认为最不开心的周一,笑话搜索量却是一周中最少的,阴雨天的相关搜索量也是所有天气中最少的。重大悲剧发生时,例如 2013 年波士顿马拉松比赛期间,两颗炸弹造成三人死亡、数百人受伤后,笑话的搜索量也会骤降。实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。
有时一个新的数据集会展现我想都不曾想过的行为、欲望或担忧,很多性癖好就属于这种类型。例如,在印度以“我丈夫想要……”为开头的搜索中,数量最多的是“我丈夫想要我给他喂奶”,这一点过去你知道吗?在印度,这类表达要比其他国家多得多。除此之外,在印度和孟加拉国,女人给男人喂奶这类色情描述的搜索量要比全球其他国家多 4 倍。在看到数据之前,我是无论如何也不会想到这一点的。
男性对自己的阴茎大小耿耿于怀这一事实也许还可以理解,但女性对自己身体最大的不自信之处(按谷歌搜索来看)就很匪夷所思了。基于这项新数据,与男性介意自己的阴茎大小一样,女性可能担忧的是—卖个关子—自己的阴道是否有异味。女性与男性因对自己的私处心存隐忧而进行的搜索,在量上是基本持平的,只不过女性搜索率最高的是气味(以及如何改善异味)。在看到数据之前,我对此当然是一无所知的。
有时新数据会体现我从前不曾考虑过的文化差异。例如,全世界男人对于妻子怀孕一事的反应截然不同。在墨西哥,与“我怀孕的妻子”相关的搜索词条中排名前两位的是“对怀孕的妻子说的情话”和“为怀孕的妻子作的诗”。在美国,搜索量最多的词条包括“我妻子怀孕了,现在怎么办”和“我妻子怀孕了,我该做什么”。
尽管包含很多奇怪的事实和一次性研究,但本书绝非这些内容的简单拼凑。因为这些方法很新颖,而且只会变得更强大,所以我会提出一些观点,阐明这些方法该如何发挥作用,以及是什么令其具有开创性。当然,我也会坦承大数据的诸多局限。
不少人对数据革命的潜力怀有热情,但其中一些人的确有些跑偏。大多数倾心于大数据的人总会滔滔不绝地说这些数据集会变得多么多么巨大,这种对数据集大小的执着已经不是什么新鲜事了。在谷歌、亚马逊和脸谱网之前,在“大数据”一词出现之前,一场关于“大而复杂的数据集”的会议就曾在得克萨斯州达拉斯市拉开帷幕。而今,斯坦福大学统计学教授(也是我在谷歌工作时的同事)杰里·弗里德曼(Jerry Friedman)回想起 1977 年召开的那次会议。一位杰出的统计学家想站起来讲话,他会说自己已经积累了惊人的 5 GB 数据。又一位著名的统计学家紧接着会站起来说:“上一位发言者说有 GB 级的数据。那有什么,我有 TB 级的数据!”换句话说,这场谈话的重点是你能积累多少信息,而不是你希望用这些信息来做什么,或者你打算回答什么问题。弗里德曼说:“当时我觉得很有趣,好像我们该记住的就是他们的数据集有多大。这样的事至今还在发生!”
今天仍有很多数据科学家正在积累大量的数据集,却很少阐明其重要性。(尼克斯队在纽约很受欢迎的相关数据便是一例。)太多的企业被淹没在数据中,它们有 TB 级的数据,却很少有主见。我认为数据集的大小总会被高估。对此,还有一个很微妙却很重要的解释,即一种事物的影响越大,有必要观察它的次数就越少。你只需要触碰一次高温火炉就会意识到它很危险,但是你可能需要喝数千次咖啡才能确定它是否会让你头痛。哪个教训更深刻呢?显然是高温火炉,由于其影响很大,烫手的火炉会在你的意识中迅速闪过,只留下非常少的数据。
事实上,最明智的大数据公司常缩减其数据。在谷歌公司,很多重大决定都是基于其全部数据中极少量的样本做出的。22 你不见得总是需要大量的数据才能得到重要的发现,你需要的是正确的数据。谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。
最重要的是,为了从大数据中获得见解,问题必须问到点上。正如你不能随意用望远镜望向夜空就发现冥王星一样,你也不能下载一大堆数据就指望可以发现人性的秘密。你必须查找有希望的地方,比如在印度以“我丈夫想要……”为开头的谷歌搜索。
本书将会展示如何最合理地使用大数据,并详细解释大数据为什么会这么强大。与此同时,你也会了解我和其他人使用大数据得到的发现,包括:
• 有多少男性是同性恋者?
• 广告起作用了吗?
• 为什么“美国法老王”(American Pharoah)是一匹著名的赛马?
• 媒体有偏见吗?
• 弗洛伊德式失言(Freudian slips) 是真的吗?
• 谁逃税了?
• 去哪儿上大学重要吗?
• 你能掌控股市吗?
• 哪里是抚养孩子最好的地方?
• 是什么让一个故事人尽皆知?
• 如果你想要第二次约会,那么你应该在第一次约会时说什么?
……
题图为电影《昼颜》剧照,来自:豆瓣
原文链接 (已下线): https://www.qdaily.com/articles/60286.html
Wayback 快照: http://web.archive.org/web/20190116111003/https://www.qdaily.com/articles/60286.html