“大数据是机会,但只是少数人的机会,更多是巨头们的商业障眼法,比如 IBM 、Oracle、微软,他们提倡甚至夸大大数据的目的还是为了向你兜售他们的工具,兜售他们的解决方案,确切的说,从你身上赚钱。更有甚者,居然是向你兜售硬件,这不完全是扯淡么? 大硬件还差不多。”
从2011年开始,英文IT界开始时不时的蹦出“Big Data”这一词汇;到了2012年,大数据成为了一发不可收拾的一个行业热门概念,仿佛出口不提大数据,都不好意思说自己是搞IT的。
究竟“大数据”和“数据”之间有啥区别,业界公认的定义分三方面:数据量(Volume)、处理速度(Velocity)以及数据种类(Variety)。不过说实在的,之前笔者跟IT界同行聊天时提到大数据,说这种量级的数据很久以前不就有了嘛,只不过是在研究所、气象局、金融中心、医药中心之类的地方,跑在昂贵的大型机和超级计算机上面,而现在则跑到了一批互联网公司们的廉价x86服务器集群上而已。从这个角度而言,大数据带来的变革有点类似于二十多年前的PC革命(其实更像是30多年前的小型机革命),并非前沿创新,而是从前沿到普及的过渡。
普及的范围有哪些?以下是维基百科上列出的一些例子:
网站日志,RFID,感应器网络,社交网络和社交数据,互联网上的文本和文档,互联网搜索索引,通话记录,天文,气象科学,基因学,生物化学、生物以及其他复杂的跨领域学科,军队,医疗,影像档案,视频档案,大型电子商务。
下面还给了一些具体的数字:
- 斯隆数字化巡天项目(SDSS),起始于2000年,启动后1周内收集的数据量超过了天文学历史上数据量的总和。其目前的收集速率在每晚200GB,总量超过140TB。而SDSS的后继者一旦启动,又能够在5天的时间内收集SDSS总量的这个量级。
- 大型粒子对撞机(LHC)的四个感应器在2010年内制造了13PB的数据。
- 沃尔玛平均每小时处理一百万个用户交易,相应的数据库量级已经超过2.5PB。
- Facebook的数据库里储存了超过400亿张照片。(平均4张照片1MB,总量100PB。来源)
这个对比很有意思:沃尔玛的数据比SDSS高一个量级,LHC的数据比沃尔玛的数据量高一个量级,而Facebook的数据则比LHC还高一个量级!
笔者在2005年左右的时候看到过一张图,因为很喜爱其中的含义,所以用在了自己的签名上:
但是前两天忽然发现,这张图里的Internet被23,993,564,998 MB的数据代表,换算过来只不过23PB,还不到一个Facebook的数据量!整个网络的数据积累速度之快,对于从上个世纪成长起来的人们而言实在是非常震惊。
接下来的问题就是,究竟谁会对这些数据感兴趣?
广告主
“我的广告费有一半被浪费了,但问题是我不知道是哪一半。”
—— 现代广告业之父 John Wanamaker
广告、市场营销涉及的范围很广,底层平台有网络媒体、社交网络、纸媒、电视、公交站旁的牌子、电梯口墙上的屏幕、学校食堂的桌子等等;中间层有广告投放系统、数据分析服务、做报告的;转化层有电子商务和实体店。
“今天我们放一个路牌广告,我可以告诉你西单路口一天两千万人可以看得到,这个数据是什么呢?真的是有一个人站在那去数这个事情吗?其实都不是。”
笔者前日拜访国双科技,其高级副总裁续扬先生这样描述起广告行业的万年问题——被浪费掉的一半。接下来,续扬先生开始感叹互联网带来的变革:
“互联网的出现,使在线的数据全部被采集成为了可能。”
也就是说,要了解用户的互联网行为,调查问卷、采样这些手段已经不需要,所有的数据在技术上都可以通过浏览器等终端自动收集,然后分析出来的结论,不再是针对某一个样本,而是完整的目标群体。这就是“全数据”。
这意味着什么?广告主不再需要依赖基于某个随机的样本群做出的用户报告进行决策了,他们可以拿到所有搜索过、查看过、购买过自己产品的用户们的互联网行为数据!而且数据收集合理完整的情况下,他们完全有可能计算出来自己每一分广告投入带来的回报。
为什么会这样说?笔者拜访国双科技当天,看到许云先生做的一次产品演示,其中有一点令人印象深刻:
一条时间线。
简单来说,这条时间线是一个用户访问某化妆品品牌官网的一个历史记录。包含的信息很简单:一个来访时间,进入网站的来源,使用的浏览器,以及是否进行了购买。用户的识别一般是通过cookie的手段和注册用户的机制实现,不过许云先生表示现在也有其他的技术手段;而且随着用户的数据越来越多的分享给互联网服务商,辨认用户的手段还会越来越多,越来越精准。
在许云先生展示的时间线当中,用户在不同的时间段访问了这家网站,并且在第四次访问的时候进行了购买。其中可以发现一些细节:
1、用户的第一次来访是从微博(e.weibo.com)进入的
2、过了一个星期,用户有意识的通过搜索又进来一次
3、用户第三次还是通过搜索,这次访问已经确定了购买意向,然而
4、最后购买之前,用户换了一次浏览器(Chrome->IE)
所以,如果你是该企业市场部那位决定在微博平台投放广告的决策人,或者是负责企业微博运营的市场人员,那么通过这样一个历史记录,这个广告的效果跟最终成交的这笔单子就有了直接的联系。当然,影响用户最终购买的因素有很多,第一次曝光可能只是起到一个通知用户的作用,但至少这能够让人有一个概念:企业微博做了是有效果的。具体算市场人员绩效的时候,也好看个清楚。
就国双科技而言,提供数据收集和展示的工具只是第一步;如果客户需要,他们可以生成一份有针对性的报告,并进一步提出广告投放或改版的建议。最重要的是,这些数据都是实时的——这在上世纪末可是金融界才能享受到的待遇!而且,这样一家公司的客户如果能够覆盖到一个行业的几个巨头企业,比如化妆品业的几个跨国企业,那么国双科技这样一家200多人的小企业,也完全有可能掌握整个化妆品行业在中国区的大部分网络广告数据。如果要做一个行业报告出来,那么国双科技手上掌握的有关国内广告市场的资料,有可能连Gartner、IDC这样的传统的权威报告发布方手上都没有。这在以前是不可想象的。
这就是大数据时代的机会之一。而这其中的关键点之一,就在于你在这个行业收集的数据是否有专业性。笔者跟续扬先生聊天的时候谈到有的企业可能不愿意把这种数据的工作交给第三方的企业来做,比如处于信息安全的考虑等等。对此,续扬先生是这样回复的:
“大家越来越意识到尊重专业性,就是说,与其他做,他不一定有我做得专业、专注。中国人有一个特点,什么都想自己干,但是有的时候有一些非常尊重专业性的话,他就去用你这些数据。”
事实上,对数据上的这种专业性的尊重,在北美、欧洲等市场早已成为常识。对于小企业而言,可能只需要找到一个合适的模式执行下去就好;但是对于上了一定规模的企业,需要决定要做哪些事情,将多少资源投入到这些事情上,都需要准确的数据进行判断,以避免资源的无谓耗损。好的数据提取出来的结论如果能够帮助他们减少哪怕1%的损耗,那也是非常有价值的。
对于广告行业而言,互联网全数据索引只是一个起步。随着网络的触角从智能手机往人们的身边发展的同时,数据收集的范围也在迅速的扩大至现实的世界当中。比如今年开始出现在很多电梯间门口的刷q卡的机子。出租车后座上的触屏设备。公交站旁边的广告牌、大学食堂的桌子,以后也很可能会能够与我们进行互动。这种数据的广泛性、散落性、多样性和实时性,很可能会带来更多的机会,对整个广告行业造成巨大的变革。
您对于这样的变革有何看法?欢迎留言讨论!