公司的社会学家正捕捉人类行为的背后玄机。他们的发现可能给予脸书更多的依赖我们数据赚钱的新方法,同时也改变我们对社会的看法。
如果把脸书想象成一个王国,其9亿的成员将使其成为世界上第三大的国家。然而,在如此亲密的记录下每个公民的生活轨迹上,历史上和现今没有哪一个国家能比得上脸书。私人的对话、家庭的照片、旅行路线、生日、婚姻、以及死亡,所有这些信息都流入该公司的服务器并储存在那里。脸书以前所未有的规模将人类社会行为的数据收集到一起。或许,您的部分个人信息也是这其中的一部分。
然而,尽管脸书已将自己嵌入了现代生活中,但还没有充分利用它所知晓的我们的这些信息做些什么。
如今,该公司已经公开招股了,发掘新的盈利手段的压力有可能促使脸书更好的利用拥有的这座信息宝库。隐约显现的数据宝藏就像一个庞大的阴影笼罩在今日表现一般的线上广告业上,一方面让用户很担心自己的隐私,另一面也让对手,比如谷歌感到焦虑。大家都有这样一种感觉,这种史无前例的资源一定会有大的东西产生,但没人知道会是什么。
35岁的Cameron Marlow正带领脸书团队挖掘我们所有的这些数据看能得到些什么,他现在的座位几乎是紧挨着扎克伯格。这个团队逃离了公众的视线,公众们一般更关注脸书的创立者以及更能上头条的新功能。这个组内部称为数据科学团队,好比是社交网络时代的贝尔实验室。目前这个组有12名研究者,不过今年人数会扩展一倍。他们运用数学、编程技巧以及社会科学来挖掘数据,以期能提升脸书商业表现以及社会科学。公司的其他的分析者只是关注与某一方面的网上行为相关的信息,而Marlow的团队却可以在脸书拥有的整个个人数据海洋中遨游。所有脸书的用户甚至包括公司的领导,当如此多的个人信息在一个地方得到编辑的时候,这些研究者就有最好的机会了解这些数据背后的玄机。
脸书之所以拥有所有这些信息是因为它找到了很精巧的方法收集人们交往时的数据。用户在填写个人档案的时候就填写了年龄、性别、电子邮件地址;有些人还给出更多的个人的信息,比如婚姻状态、移动电话。去年秋天的新设计以时间线的方式新引入了个人档案页面,可以让人们填写历史信息,如以前的居住和工作地点。网页上分享的短信和照片经常标记有精确的地点,在过去的两年,脸书已开始使用一项让人着迷的叫做“Like”按钮的发明在网上追踪用户的行动。这个按钮出现在脸书之外的应用程序或网页上,当用户喜欢某个商标、产品或视频的时候就可以点击一下。自从去年秋天,脸书就可以自动收集用户的网上活动:在某些应用程序或网页上,当用户听某首歌或读某篇文章的时候,即使没有那样一个“like”按钮,这样的活动信息也可以传递给脸书。在启动这项功能的五个月内,脸书就追踪了用户在线听歌的50亿个实例。将这样的信息与用户在网上实现的社会交往地图结合起来,你就会得到关于他们生活和交往的无比丰富的记录。
“这是世人第一次得到关于人类交往的如此广度和深度的数据”,在说这话的时候Marlow一脸严肃,直到他想到能用这些数据做很多事时才不禁笑出来。首先,Marlow相信探索这个资源将革新对于人类行为的科学认识。他的团队也可以帮助脸书为了自身以及广告商的利益影响我们的社会行为。这项工作甚至能帮助脸书发明赚钱的全新的方式。
传染性的信息
Marlow身着衬衫和牛仔裤而不像扎克伯格和其他在脸书工作的程序员那样穿套头衫和T恤。在五月份公司首次公开募股之前不久,我在一间会议室与Marlow见面。会议室的玻璃墙面上装饰着喷漆的狗的漫画。他走进来的时候更像是一个年轻的大学教授而不像一个学生。他恐怕没有想到自己会进入这间网络公司工作,来研究该公司产生的如此丰富的人类交往的数据。
2001年,Marlow在MIT的媒体实验室读博士时建立了一个叫做Blogdex的网站能自动列出在博客间最具“传染性”的信息。尽管这仅仅是一个研究项目,可立即就变得十分流行导致Marlow的服务器瘫痪。这个研究项目启动之时正是博客盛行的时候,博客的数量变的如此之多以至于网民对于大量的信息感到无所适从,这个项目预见了随后出现的一些聚合器比如Digg和Reddit。不过,Marlow并没有把这个建立起来从而帮助用户跟踪网上的流行事物。作为一个研究工具,Blogdex本意是揭示由网页组成的社会网络以及研究这种网络如何传播想法。Marlow随后去了雅虎的研究实验室,花了两年时间研究在线社交。2007年,他加入了脸书,他认为这是研究人类社会的最强大的工具。“第一次”Marlow说,“我们有了一架显微镜不仅能让我们在一个之前从没有过的很好的水平上解释社会行为,而且可以让我们利用上百万用户的信息运行实验”。
Marlow的团队与脸书的管理者合作找出将来可以用的模式。比如,他们研究一项新的功能是如何在社交网络中蔓延传播的。他们帮助脸书确定一些用户你可能认识但还没有成为“好友”,也识别另外一些人你可能仅愿意指定为“熟人”从而让他们的信息更新不那么显眼。脸书的软件工程师信奉“快速前进,打破常规”,他们是公司的摇滚明星,在这样的公司有Marlow这样的团队是比较奇怪的。和数据团队坐在一起吃午饭的感觉就像是一个顶尖学校的研究生聚会。这个团队的典型的成员都是刚毕业的博士或刚进入研究职位不久,他们更喜欢谈论如何促进社会科学而不是如何促进脸书这样一个公司或产品。这个组的一些成员接受过社会学或社会心理学的训练,而其他的已开始学习计算机科学并开始用此来研究人类行为。他们可以自由安排时间、自由使用脸书的数据,调查人类行为背后的基本模式和动机,在学术刊物上发表论文——就像贝尔实验室的研究人员一方面促进美国电话电报公司的技术,另一方面促进基本物理学的研究。
一个仅有八年历史还没有一个成熟的商业模式的公司会费力气支持这样一个有学术嗜好的团队,这看起来似乎很奇怪,不过Marlow说,这么做是有意义的。“脸书需要解决的最大的挑战与社会科学面临的挑战一样”,他说。这些挑战包括理解为什么一些想法或时尚从刚开始的一小撮人而变成众人皆知,而另外一些想法却不会变得流行;在何种程度上,一个人将来的行动是以前和朋友交流的结果。他补充说,出版研究结果以及和大学研究者合作将导致新的发现从而帮助脸书提升其产品。
脸书如何很大程度上可以作为检验社会的工具呢?举一个例子:有一个说法是地球上的任何一个人彼此之间仅仅有六步的距离。有名的以真实世界为实验背景的研究是在1967年,几百个人试图发明信片给一个波士顿的股票持有者。脸书的试验是在2011年的5月,当时整个的社交网络已经占到了世界人口的10%。与Milan大学的研究者合作,他们分析了七亿两千一百万人以及他们之间的690亿个好友连接,研究结果显示我们的世界远远比我们想象中的要小:平均,四个中间人就已经足够把任何一个人介绍给一个随机的陌生人了。“当考虑世界的另外一个人时,平均来说,你朋友的一个朋友知道他们朋友的一个朋友,”技术论文简洁的总结道。这个结果还不能推延到地球上的每一个人,但已经有足够的理由相信数据科学小组的发现在脸书之外的生活中也是真实的。去年,Pew研究中心的互联网与美国生活项目发现93%的脸书好友以前都见过面。通过记录代表积极或消极情绪的字词的发生,Marlow研究小组的一个成员也发展了一种从一个国家脸书的活动计算该国“全民幸福”程度的方法。全民幸福指数波动的方式也显示出这种测量方式是精确的:在假期的时候指数就高,当公众名人逝世的时候就指数就低。2010年2月智利发生大地震之后,该国的指数急剧下降,好几个月以后才恢复到正常。当日本在2011年3月经历大地震与随后的大海啸时,之前智利发生地震的这个事情,让智利这个国家表现的比其他的国家更感同身受,更表现出同情心;当此时智利的全民幸福指数下跌时,其他国家的指数没有随之变化(日本除外)。这个指数的发明人Adam Kramer说,他发明这个东西就是显示脸书的数据可以提供廉价而精确的方式来追踪社会趋势,这种方法对经济学者或其他研究者或许也是有用的。
其他的这个研究组发表的工作对于脸书的基本策略来说有更明显的功用。这些基本策略包括鼓励我们把脸书作为生活的重要部分,然后运用该研究组了解到的东西来售卖广告。一项早期的研究是看一下来自好友的哪些类型的更新能鼓励新的到访者上网添加自己的东西。在今年情人节之前,数据科学小组发布了一个博客,列出了在脸书上表明刚刚恋爱或失恋的人最钟爱的歌曲。这种相互关系所透露的线索或许可以帮助脸书对用户的行为作出有用的预测,这种知识进而可以让脸书对于你在一个特定的时间是否会打开某个广告作出更好的猜测。或许刚刚失恋的人对于一个情歌专辑感兴趣,或者没有什么公司应该将自己的品牌和参加一位朋友葬礼的情绪宣泄连在一起。今天最有价值的在线广告是那些伴随着一定网页搜索而出现的广告,因为搜索者明明白白的表明了自己想要什么。这就是为什么谷歌的收入是脸书十倍的原因。但脸书也许最终会甚至在人们还没有意识到之前,就猜到人们想要什么或不想要什么。
最近,数据科学小组开始利用它得天独厚的条件以及脸书工作的方式来做实验,对网页做调整,就像捅一下蚂蚁窝,看用户会如何反应。Eytan Bakshy在密歇根大学作为博士生和Marlow合作之后于去年加入了脸书,他想了解我们在脸书上的行为是不是主要受到我们亲近的朋友的影响,毕竟朋友之间臭味相投。这个研究有助于验证这样的理论:我们的脸书上的朋友营造了一个“回音室”,能放大我们已经听说过的观点和新闻。在为期七周的时间里,7600万这些用户彼此分享的链接被记录了下来。然后,在随机挑选的2亿1千9百万次情形下,脸书阻止某个人看到他的朋友分享的一个链接。隐藏链接这样的方式就创造出一个控制组,这样Bakshy就能评估有多少次人们推荐同样的链接了,因为他们有相似的信息和兴趣。
他发现我们亲密的朋友强烈地影响到我们分享的信息,但总体上,他们的影响被大量的更远处的联系人的集体影响所减弱,这种更远处的联系,社会心理学家称之为“微弱的连接”。微弱联系的多样组合体能最大程度的决定我们将暴露于哪些信息中。
这个研究提供了很强的证据表明社交网络并不是创造了有害的“过滤器泡沫”(filter bubbles),活动家Eli Pariser用这个词来形容这样的一个效果,就是我们会加工我们接受到的信息来满足我们的预期。不过,这个研究也揭示出脸书拥有的能力。“如果脸书的News Feed是每个人都能看到的东西,它能控制信息散布的方式,它能控制信息如何发布给社会,那我们就该多多注意这个东西。”Marlow说。他指出他的小组帮助脸书明白公司对社会做了什么,发表这个发现来履行公共职责,使脸书变的更透明。另外一项最近的研究探讨的是脸书的何种类型的活动能导致人们更能感觉到他们得到了朋友们的支持,也属于同一个系列研究中的一个。
不过,脸书的繁荣很大程度上还是得迎合广告商的口味,他们想控制用户之间的信息流。Marlow也是作为脸书公司的雇员说这些话的。而且确实,Bakshy在数据小组之外与管理者合作,从关于社会影响实验方面的结果中提取与广告相关的发现。“广告商和商标也是这个网络的一部分,所以给他们一些关于人们如何分享他们创作的信息方面的一些洞见也是商业模式中很重要的部分。”Marlow说。
脸书在公开招股之前就告诉他们潜在的投资人,人们有50%的可能性更可能记住他们朋友认可的网页上的广告。通过指出影响力是如何产生的,就能使得广告更能容易被人记住,或者帮助脸书找到更好的方式引诱更多的人分享或点击这个广告。
社会工程
Marlow说,他的队伍想要预测在线社会生活的规则进而理解脸书内部发生了什么,而不是发展操控社会的方法。“我们的目的不是去改变社会中交际的模式”他说,“我们的目标是理解它这样我们就能应用我们的平台给予人们想要的体验。”不过,他的小组的一些工作以及脸书领导人的态度表明公司也只是想用这个平台来调整用户的行为。不同于学院里的社会学家,脸书的雇员们从想法到实验路径很短,就可以利用几亿人来设计实验。
四月份,可能部分受到他和他医学院女朋友的一次晚餐谈话的影响,扎克伯格决定他应该使用脸书的社会影响力来提升器官捐献的注册人数。用户有机会在一个有限期的网页点击一个按钮来表明他们已经注册了器官捐献,同时触发一个通知给他的朋友。这个新功能源于急剧增长的社会压力,44个州的器官捐献登记数由此增长了23%。
Marlow的团队目前正要发布美国最后一次中期选举的结果,这也显示了另一个脸书有潜力引导用户彼此影响的突出的例子。自从2008年,公司就为用户提供了一种方式,可以显示用户已经投票。脸书同时向用户的朋友发布一个消息,提醒他们也投票。Marlow说,在2010年的选举中,他的团队用数据和投票人的注册记录匹配起来查看哪一个脸书的使用者确认投票并真正去投票了。
这还仅仅是开始。通过对脸书的微小改变能够改变用户在网站外的行为做出更多的了解,公司最终“能允许其他人能以同样的方式使用脸书,”Marlow说。如果美国心脏联合会想鼓励健康饮食,那它就可以参考脸书社会工程指南。“我们想成为一个平台,其他人能使用这个平台发起改变。”他说。
广告商们,也一样渴望更多的知道怎样在脸书上发起一个号召进而影响用户在实际生活中的行为,尽管他们意识到要操纵人们的行为肯定是有限度的。“我还不清楚社会科学会不会变成像工程科学那样能实实在在建造桥梁,”Duncan Watts说。他在微软最近开设的纽约研究实验室从事计算社会科学研究,之前他同Marlow一样在雅虎的实验室工作。“不管怎样,如果你有足够的数据,你就能做出比单纯随机猜测更好的预测,这个真的是可以获利丰厚的。
翻倍数据
像其他的社交网络公司,如退特一样,脸书并没有获得像互联网的先行者如谷歌享有的技术创新的名声。如果硅谷是一个高中,这个搜索公司就像是安静的数学天才,并不擅长交际但却能发明不可替代的事物。脸书就像是让人闹心的小孩子,他建立了一个交际俱乐部,不管人们想还是不想都得加入。现实中,脸书雇佣大量天才软件工程师(很多是从谷歌和其他数学天才公司挖来的)来建立和维护这个极具吸引力的俱乐部。用于支持数据科学小组进行实验的技术是特别有创新性的。脸书运作的范围如此之大导致他们发明硬件和软件,而其他的公司对这点很嫉妒,他们也想应用这些软件和硬件来处理这个世界上的海量数据。
在技术接力棒传递的过程中,脸书通过扩展叫做Hadoop的开源软件的能量建立了自己的数据贮存系统。Hadoop受到谷歌工作的启发而在雅虎建立。通过将计算任务扩散至一座数据中心的所有机器,Hadoop能应付看起来不可能的计算任务——比如处理脸书用户托管给该公司管理的所有的数据。但Hadoop并没有贯穿数据科学,如果要用它处理数据就需要特别且笨重的编程。脸书的工程师门发明了Hive这个开放软件解决了这个问题。Hive软件目前独立于脸书且很多公司都使用它。Hive运行起来就像一个翻译服务,能使用相对简单的编码来查询大量的Hadoop数据库。为了减少计算的需求,这个程序能从一个整个的数据集合中请求随机样本,这个功能对于被数据淹没的大量公司来说简直是无价的。很多在一个Hadoop库中脸书的数据都超过一百万兆比,从事数据基础架构的脸书工程主任Sameet Agarwal说,而数量还在以级数增长。“在过去的几年,每年的数据量都增长一倍,”他说,这也意味着他的团队必须不断的建设新的有效系统。
所有这些都给予了脸书独特水准的专门技术,Jeff Hammerbacher说。他是Marlow在脸书的前任,他最先开始倡导发展脸书自己的数据存储和分析技术。(他在2008年离开了脸书建立了Cloudera,这个公司发展基于Hadoop的系统来管理大量的数据集合)很多大型公司付大量的钱给成熟的软件公司,如Oracle进行数据分析与存储。但现在,大公司都试图明白脸书是如何在开源体系之上处理大量的信息库。Hammerbacher说,“我最近花了好几天在Fidelity公司帮助他们明白脸书所谓的数据科学家的角色是如何构建的;我也其他数不清的公司都有过相同的讨论”。
当每个公司的管理者都在尝试开发“大数据”的机会,对脸书数据技术的浓厚兴趣说明它的广告业务也许只不过是更有价值的东西的一个枝节。就是脸书发展的这种处理大量信息的工具和技术都可以变成一个他们自己的产品。
挖掘宝藏
脸书需要新的赚钱门路来满足投资者的期望。即使在令人失望的IPO之后,脸书还是有惊人的很高的市盈率,这与公司廉价的广告不太相称。脸书新的地址在California的Menlo公园,是原来Sun Microsystems公司呆的地方,这让公司能实实在在感到压力。公司的3500名雇员在6600的足够大的空间里办公。我经过一座放了很多空桌子的建筑,而下一座建筑则还是完全空的。旁边还有一块空地,或许是等有人发明一种使用数据的方法后才值得再开发那块地。
一个潜在的办法就是简单的出售挖掘数据得到的想法。DJ Patil是风险投资公司Greylock Partners的数据科学家,之前是Linkedln的数学科学小组的组长。他相信脸书能从Gil Elbaz那里得到灵感,这个人是谷歌的AdSense ad生意的发明人,这项生意提供了谷歌四分之一的收入。他离开广告业后现在经营着一家迅速成长的新公司Factual。这个公司从免费的公共资源以及通过购买私人数据集合来建立大型的,精心组织的数据集,从旅馆的位置到名人的体重指数,这些数据涉及到了方方面面。如果其他公司要使用这些数据,Factual就向它们收取费用。Factual公司清理数据,将结果作为一种有需求的知识库在网上发布。不同的是,这个知识库是软件发掘的,而不是靠人。消费者就可以用这个知识库填补自己的数据缺憾,进而制造更聪明的软件或服务,比如,脸书就可以使用Factual得到有关商业的地点的信息。Patil指出脸书可以自己成为一个数据源头,出售来自用户编辑的信息。这些信息,他说,可以成为任何一个商业的基础,比如在线约会的生意,流行音乐排行榜。假如脸书在不给用户或管理者造成麻烦的基础上迈出这一步,这将是很吸引人的。一个想提升业绩的网店,比如说,可能就会向脸书付钱,购买一些信息,知道哪些地点有哪些牌子是比较流行的,一年中某些商品的流行趋势是如何变化的。
Hammerbacher认为,脸书可以出售自己的数据科学以及观点,改变目前的免费给广告商和网站所有者提供观点服务的情况,也就是说收费告诉广告商和网站所有者他们的内容是怎样在脸书上分享的。在它的“Like”按钮跟踪所有网页的活动,或人数统计数据或人们在网站上读什么时,如果脸书能加上这些获得的数据,那对于各个商家来说是很有用处的。提供这样的收费服务已经有一个先例:在2011年底时,谷歌开始收取$150,000的年费,提供分析某个生意的网站的流量的服务。
回到脸书,Marlow并不是那个决定公司该向哪个方向收费的人,尽管他的工作将会影响这些决策者。不管结果如何,他说,他的小组最初的任务是支持那些提供了数据给脸书的人的幸福,使用这些数据会使得服务更加的智能化。在这个过程中,他说,他和他的同事将促进人类更好的理解自身。这也正好反映了扎克伯格经常提及的令人怀疑但又似乎真实的信念:脸书的工作是为了让世界更好的交流。不过现在还不要问将来究竟会产生怎样的结果。“很难预料我们会走向哪里,因为我们现在身处于这个科学的起步阶段,”Marlow说,“脸书的数据能带给我们潜在的非常多的东西”。
版权遵循cc协议署名-非商业性使用-禁止演绎。