一、蓄势待发,大数据时代即将来临

1.1、大数据前传:一篇报告引发的血案

当人们还在津津乐道云计算、物联网等主题时,最近一个崭新的概念“大数据”横空出世,这个概念既让大家感到突兀,又让大家感到陌生,突兀的是他出现的几乎没有任何征兆,陌生的是大多数人根本不知道何为“大数据”。在详细解剖大数据相关技术和产业机会之前,我们首先回顾一下大数据迅速蹿红的成名史——一篇报告引发的血案。

2011 年“大数据”的重要时点及相关事件:

2011 年5 月,EMC World 2011 大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出了“大数据”(BigData)概念。

2011 年6 月,由EMC 赞助,IDC 编制的年度数字宇宙研究报告《从混沌中提取价值》(Extracting Value from Chaos) 发布,文中提到三点重要论断:根据IDC 过去五年的研究发现,全球数据量大约每两年翻一番;2010 年,全球数据量跨入ZB 时代,预计2011 年全球数据量将达到1.8ZB;未来全球数据增速将会维持,预计到2020 年全球数据量将达到令人恐怖的35ZB。

2011 年6 月底,IBM、麦肯锡等众多国外机构发布“大数据”相关研究报告,予以积极跟进。

2011 年10 月,Gartner 认为2012 年十大战略技术将包括“大数据”。

2011 年11 月底,IDC 将“大数据”放入2012 年信息通信产业十大预测之一。

2011 年11 月底,由CSDN 举办的中国大数据技术大会在北京成功举行。

2011 年12 月,包括笔者在内的中国券商大量推出“大数据”主题研究报告,大数据在中国证券市场正成燎原之势。

细读海内外各研究机构“大数据”报告可以发现,IDC《从混沌中提取价值》中的三个论断基本构成了“大数据”的理论基础,之后各行各业发布的大数据报告言必称IDC,几乎都以上述三个论断为其立论基础。

虽然EMC 对于“大数据”拥有首倡之功,但是IDC 才是真正引爆“大数据”的奠基者,因为他给整个世界提供了理论的土壤和想象的空间,并在IDC 的报告中给出了大数据技术的定义,虽然大数据的概念和边界经过后续研究机构的跟进,不断予以修正和扩大,但关于大数据技术的讨论基本还是局限于IDC 定义的框架之内。

从Google 趋势工具获取的数据也间接验证了我们的观点,相较于过去五年“大数据”搜索量长期在低位徘徊不同,在今年6 月以后,“大数据”搜索量开始呈直线上升态势,在不到半年的时间里,Google 搜索量指数实现了翻番的增长。

其实“大数据”并不是一个全新的词汇,无论是从Google 搜索量指数来看,还是去挖掘相关研究报告,在2011 年之前,我们就可以发现很多“大数据”的影子。不过之前关于大数据的讨论基本局限于计算机技术专家内部,影响范围相对较小,在把“大数据”一词带进产业界和金融界,引起全球关注方面,IDC 和EMC 居功至伟。尤其是IDC,关于数字宇宙研究已经做了五年,刚好是从2006 年开始,与“大数据”Google 搜索量几乎同时起步,当然,EMC也相应的赞助了IDC 数字宇宙研究五年。

在大数据走红过程中,我们可以发现EMC 扮演了一个很奇妙的角色,第一是高举大数据之旗,为大数据走红推波助澜;第二就是长期赞助IDC 进行数字宇宙研究。EMC 显然不是一家慈善机构,他是全球最大的外置存储硬盘供应商,如此孜孜不倦的支持IDC 针对全球数据量的增长趋势进行研究,我们不妨以最坏的恶意来进行揣摩:其实EMC 只是想借此提醒一下客户做一下前瞻性考虑,顺便自己多卖点硬盘而已。

EMC 赞助IDC 本来只是一个极其朴实的想法,但就像蝴蝶效应一样,最后掀起的波澜可能会渗透整个IT 产业界。

若干年后,当大数据大红于天下,妇孺皆知时,我们蓦然回首会发现,IDC 之于大数据就好比福特之于汽车,福特虽不是汽车的第一发明者,却是让汽车走进千家万户,真正实现其产业化的奠基人,而IDC 的研究报告《从混沌中提取价值》也正有如此功效。

另外一件值得关注的事情是:从Google 搜索量指数来看,大数据不但比物联网起步早,也一直比物联网热度要高。也许未来他会比物联网来得更快更猛烈。

1.2、山雨欲来,我们正站在大数据的前夜

在前传中我们做出了一个小小的揣测:EMC 因为一个朴素的要求赞助IDC 写了一篇报告,最后这篇报告持续发酵开始引起全球众多知名企业和研究机构发生连锁反应。而时至今日,“大数据”的范畴已经远远超越了IDC 一开始的讨论范围。

虽然我们稍稍动了一下邪恶的心思做了一个无伤大雅的推测,但是静静思考和研究之后,我们可以发现,大数据其实并不仅仅是一个噱头,而是我们必须去面对的一波汹汹大潮。

随着信息化技术的不断进步,数字化现在已经深深的渗透进了我们生活中的点点滴滴。生活在Web 2.0 时代的我们,已经不仅仅是一个信息的被动接受者,同时还是一个信息的创造者。

全球每秒钟发送2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年。

每天会有2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年。

推特上每天发布5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年。

同时每天亚马逊上将产生6.3 百万笔订单,每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB,Google 上每天需要处理24PB 的数据。

这些由我们创造的信息背后产生的就是海量的数据,这些海量的数据早已经远远超越了目前人力所能处理的范畴。

如果人类每年产生的数据增量基本不变的话,本身不足以开启“大数据时代”,因为在增量恒定的情况下,随着前期积累数据量的增长,后期数据的增速是逐渐下降的。但是IDC 经过多年的研究,告诉了我们一个极为恐怖的现象:全球数据量大约每两年翻一番,而且这个速度还会继续保持下去。意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,全球数据量的增速而不是增量是恒定的,每年产生的数据量是按指数增长的。

鉴于IDC 关于数据增速的论断与IT 界人尽皆知的摩尔定律极其类似,我们暂且将其称为“大数据摩尔定律”:全球数据量大约每两年翻一番,而且这个速度在2020 年之前还会继续保持下去。

大数据的浪潮已经的的确确影响到了很多企业。根据中国大数据技术大会的报导,淘宝目前每天的活跃数据量已经超过50TB,共有4 亿条产品讯息和2 亿多名注册用户在上面活动,每天超过4000 万人次访问;百度每日新增数据10TB,每天系统需要处理1PB 的数据,每天提交10000+jobs,而每周有近百块硬盘故障;上海证券交易所每秒处理近9 万笔业务,每日成交笔数达到3 亿笔以上。

除了企业内部数据量的暴增以外,在这其中,还裹挟着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。数据的社会化在很大程度上模糊了企业数据的边界

如果你有一杯水,你可以把他喝掉,如果你有一桶水,你可以用来洗衣做饭,如果你有一房子水,那你一定是遭水灾了。

随着数据量的暴增和企业数据边界的模糊,大数据俨然已经称为一个非常严肃的问题,根据IDC 的监测,全球在2010 年正式进入ZB 时代,预计2011 年全球数据量将达到1.8ZB,预计到2020 年,全球将总共拥有35ZB 的数据量。

如此庞大的数据量首先在存储上就会是一个非常严重的问题,根据目前最为成熟的光存储介质,如果把35ZB 的数据全部刻录到容量为9GB 的光盘上,其叠加的高度将达到233 万公里,相当于在地球与月球之间往返三次。

美国奥巴马总统委员会的科学技术(PAST)顾问、Teradata 公司首席技术官Stephen Brobst 告诉《商业价值》记者:“全球过去3 年里产生的数据量比以往4 万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发展的当务之急,而常规技术已经难以应对Pb 级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。”

目前,谷歌、雅虎和亚马逊等公司都已经在开发或者使用大数据的解决方案。根据IDC 的判断,由于新工具和新技术的出现、以及新IT 实践和管理实践的数据”仅仅是在传媒界兴起的话,他本身是不足以成气候的。

相较于“大数据”一词在2011 年才开始蹿红不同,在计算机研究领域和产业,“大数据”早已众人皆知,各大IT 巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占这个IT 行业全新的制高点。

从图表7 中我们可以看到,近年关于“大数据”主题的并购案例如火如荼,且并购数量和规模正有逐步上升的态势。其中,最大的收购要数Oracle 收购Sun,惠普收购Autonomy,两大收购总金额高达176 亿美元,相当于目前A 股计算机企业总市值的三分之一强,大数据的产业价值由此可见一斑。根据IDC 的预测:“2012 年可能会是充满由大数据引发的合并及收购活动的一年。”

一方面通过并购以后进行技术整合,另一方面依靠企业自身的研发实力,各大IT 企业纷纷推出自身的大数据分析产品,从图表8 中,我们可以看到包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata 世界知名企业都先后发布了针对大数据的产品,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势。

与产业界纷纷推出大数据产品遥相呼应的是今年10 月,Gartner 第一次将“大数据”放入十大战略技术预测,11 月底,IDC 也紧跟着第一次将“大数据”放入信息通信产业十大预测。由此可见大数据的到来将会不可阻挡。

二、解码大数据之抽丝剥茧

2.1、大数据是什么?他首先是一个现象而不是一种技术

洋洋洒洒我们已经写了很多,但是截至目前,我们始终没有给出大数据的定义,也就是说我们并没有清楚地表述过:大数据到底是什么东西?

如果IDC 是一个男人的话,我相信他绝对不是一个负责任的男人,因为《从混沌中提取价值》一文虽点爆了大数据的眼球效应,但是IDC 本身并没有定义什么是大数据。

在IDC 的报告中,他们对大数据进行了一个简单的描述:大数据是一个看起来似乎来路不明的大的动态过程。但是实际上,大数据并不是一个新生事物,虽然他确确实实正在走向主流和引起广泛的注意。大数据并不是一个实体,而是一个横跨很多IT 边界的动态活动。

2.2、大数据的起因:为什么大数据时代会到来?

在知道大数据是一个体量(volumes)特别大,类别(variety)特别大的数据集以后,肯定会有人想知道,为什么他会膨胀到如此庞大?也就是说“大数据摩尔定律”(全球数据量大约每两年翻一番)为什么会成立?

首先,数据产生的成本下降推动了数据体量(volumes)的膨胀。对大企业而言,大数据的兴起,部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理;其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据;还有,就是把计算机聚合成服务器集群越来越简单。IDC 的数据库管理分析师Carl Olofson 认为,这三大因素的结合便催生了大数据。

根据IDC 的估计,由于计算机技术进步的持续推动,2011 年企业创造、采集、管理和储存信息的成本已经下降到2005 年的1/6,而同期企业关于数据的总投资自2005 年以来却反而上升了50%,根据IDC 的判断,数据产生成本是符合反摩尔定律的,即数据产生成本大概每两年下降一半。而这一趋势,最起码会持续到2015 年。

数据产生成本的下降和增加的投资规模,最终导致了全球数据增速符合“大数据摩尔定律”。与之相匹配的现象即是全球数据存储能力增长显著。

其次,新的数据源增加了数据类型(variety)的种类

如果说数据成本的下降只是助推了数据量的增长,那么新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加直接导致现有数据空间维度增加,极大的增加了未来大数据的复杂度。

计算机在诞生之初,只是设计用来进行高速计算的,而计算的数据基本限于数字领域,直白一点讲,最初人类只是希望设计一个计算器而已。但是随着数字技术的普及,以及A/D 和D/A 转换技术和产品的成熟,计算机扮演的功能正在越来越扩大化。

娱乐、媒体、医疗保健和视频监控则是新的数据增长源最明显的例子。如微博、Facebook、Twitter 和Youtube 等社交媒体解决方案是最新的新数据源。从本质上讲,他们已经建立消费者(自觉或不自觉地)附近提供连续数据流的系统,并由于成功网站的“网络效应”,所产生的数据可以进行快速的扩散。

大量新数据源的出现,一方面打破了企业数据的边界,改变了以往数据大量由企业内部产生的情况,增加数据采集难度,另一方面就是出现了大量文本、图片、图像和音频/视频信息等非结构化数据,根据IDC 的判断,目前非结构化数据占全球数据总量的80%以上,且仍在保持高增长态势。随着数据总量的急剧膨胀和变得更加复杂,采集、储存、管理、加工、加密和处理这些数据都将变得更为复杂。

2.3、大数据将给我们带来什么样的难题?

无限增长的数据与有限增长的IT 人员之间的矛盾

根据IDC 的预测,到2020 年,全球需要管理的数据量将达到35ZB,相较于2011 年,将增长50 倍,而同期IT 从业人员将仅增加1.5 倍,意味着人均管理数据量将膨胀近33 倍,虽然目前看来,人力资源的配给与现有的数据库管理技术基本是足够的,但是未来,如果人类管理数据的效率不能保持同步提升,人类在大数据时代将无法对数据进行有效管理。

数据体量(volumes)即将超越传统数据库的管理能力目前的传统数据库技术主要诞生在上个世纪70 年代,截至目前,经过近四十年的积累,传统数据库技术经过不断升级,已经日臻完善。虽然传统数据库技术在诞生的初期就具有很高的前瞻性,已经大幅超越了那个时代,但是谁也没有预计到40 年后的今天,全球数据量会增长如此之快,会膨胀到如此大的规模。

根据麦肯锡《大数据:创新、竞争和生产力的下一个前沿领域》(Big data: Thenext frontier for innovation, competition, and productivity)披露的数据,目前美国雇员超1000 人的企业中,大约有9,466 家企业储存数据量已经超越100TB,政府、传媒、银行、证券、公用事业等行业平均每家企业存储数据总量已经超过1PB,最高的证券行业,平均存储数据量已经近4PB。

由于我们目前产生的数据太多太快,事实上,我们已经处理掉了大量数据,例如医疗机构会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像),因此目前储存下来的数据已经是经过初选以后保留下来的数据,是属于企业比较有价值的数据。

随着企业储存数据量的不断膨胀,未来企业必将会有更多TB 级的数据集用于商务智能和商务分析。极具挑战性的是,传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。

经典数据库技术并没有考虑数据的多类别(variety)

另外一个困扰我们的问题是,目前成熟的经典数据库技术——SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的,也就是说以前计算机人员讨论数据的时候,数据的范围限定在结构化数据范畴以内。随着数据类别的变大,目前的“大数据”已经囊括了半结构化和非结构化数据,这已超出目前常规数据软件工具所能承受的极限。

贯穿数据采集、存储、处理、检索、分析、和展现的全生命周期,“大数据”将挑战企业的存储架构、数据中心的基础设施等,也会引发数据仓库、数据挖掘、商业智能、云计算等应用的连锁反应。

2.4、大数据技术:IT 领域新一代的技术与架构

因为大数据给我们带来了很多现实中的难题,为了解决这些难题我们需要新的技术变革,需要新一代的数据库技术,我们暂且称之为大数据技术。与大数据定义上的模糊暧昧不同,IDC 在定义大数据技术时倒是比较清晰干脆:

大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。

从IDC 的定义中我们可以看到大数据技术应该满足三V 一E 的条件(velocity快速,volumes 大体量,variety 多类别,economically 成本可接受),且其目的是为了从数据中提取价值(value),相信一个不能给人类创造价值的东西是不会引起人类投入时间精力来关心他的。

根据IDC 的定义:大数据(技术)既不是特指被创造的内容,甚至也不是关于这些内容的消费,他是指对所有围绕他的数据进行分析。当然,大数据技术绝不仅仅是一款简单的数据分析软件,因为从大体量、多类别的数据中快速提取价值,我们几乎要重构整个数据库技术体系。

简单一点讲,大数据技术其实是一系列技术的集合,大致可以分为负责数据存储与管理的下一代数据库技术,负责数据搜素、处理的下一代搜索引擎,以及基于该搜索引擎的下一代数据分析产品。

在眼下,大数据技术领域讨论最热烈的应该是NoSQL 和Hadoop,很多人往往会把大数据技术和NoSQL、Hadoop 之间画上等号,其实大数据技术本身并不全等于NoSQL 和Hadoop。

NoSQL,指的是非关系型数据库,是一个用来处理半结构化和非结构化信息的数据平台,你可以把他简单理解为下一代数据库技术。

Hadoop,是Apache 软件基金会所研发的开放源码并行运算编程工具和分散式档案系统,你可以把他简单理解为下一代搜索引擎。

而目前各个厂商推出的大数据分析产品,基本都是以Apache Hadoop 为内核,负责为客户提炼价值的终端软件产品,你可以把他简单理解为下一代数据分析产品(或者也可以称为下一代BI 技术)。

就目前来看,大数据技术最起码汇集Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点子话题。在可预见的将来,大数据这一领域将会不断有新技术推出,在未来1-2 年内,预计会不断涌现能处理大型非结构化数据的技术。

三、大数据将给我们带来什么?生命,还有黄金!

3.1、数据关乎生命,大数据的价值已在逐步显现

3 月11 日日本大地震发生后仅9 分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA 通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube 等网站。

NOAA 的快速反应得益于其全球范围内庞大的海洋传感器网络。通过这些置于海面和海底的传感器,NOAA 源源不断地获取全球范围的海洋信息,并将这些信息存储在位于美国新泽西州的数据中心。NOAA 的数据中心存储着超过20Pb 的数据,是美国政府最大的数据库之一。

NOAA 海啸研究中心首席科学家Vasily Titov 事后向外界表示,“虽然预警系统发挥了很大价值,但是还没有快到足以帮助到日本仙台沿海的居民及时躲避海啸”。为了在更短时间内分析出准确的海啸活动趋势,NOAA 一直在努力提升其对大数据进行处理的能力——这一机构每年的IT 预算高达10 亿美元。虽然花费巨大,NOAA 却对此乐此不疲,因为数据关乎生命。

NOAA 的案例告诉了我们一个事实,从“大数据”的分析中提取价值并不是一句空话,基于大量数据的分析、计算结果,有时会比所谓的人类智慧更为可靠。

今年2 月,超级电脑“沃森”(Watson)就向我们一展了大数据分析的智慧所在。由IBM 和美国德克萨斯大学联合研制的超级电脑“沃森”在美国最受欢迎的智力竞猜电视节目《危险边缘》中击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目中新的王者。

超级电脑“沃森”本身是一个基于大数据分析的产品,由IBM 公司和美国德克萨斯大学历时四年联合打造,电脑存储了海量的数据,而且拥有一套逻辑推理分析程序,可以推理出它认为最正确的答案。很显然,一个具备咨询服务能力的智能机器肯定是可以给我们提供价值的。

目前,全球各行各业的组织机构已经意识到,最准确的商务决策应该基于事实,而不是凭空臆想。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。这也就意味着,管理者需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。

3.2、大数据有望开拓一个新的黄金时代

根据麦肯锡的研究显示,大数据技术将通过多种方式来为我们这个世界创造价值:首先,大数据技术能够增加企业和价格的透明度,降低社会管理的成本和交易摩擦成本。其次,大数据技术能够提高企业数据的准确性和及时性,使得企业可以更好的控制自己的设备与制造流程。另外,庞大的消费者数据将有利于企业进一步挖掘细分市场机会,提高产品的消费者满意程度。同时,大数据的智能分析还将提高企业的决策水平,进一步降低企业经营的风险,最后大数据分析在研发过程中的应用,还能够缩短产品研发时间,提高企业在商业模式、产品和服务上的创新能力。

图表20 是麦肯锡全球研究所针对美国各个行业应用大数据潜在价值提升做得一个评估,从其中我们可以看到,未来政府、批发贸易、金融保险、信息技术等诸多行业都将在大数据技术中获得极大的价值提升。

从麦肯锡今年6 月份发布的研究报告《大数据:创新、竞争和生产力的下一个前沿领域》我们可以看到,大数据的应用具有显著的财务价值,仅美国医疗服务业、欧洲公共管理部门和全球定位数据市场三个领域每年就能产生超过7 千亿美元的市场价值(欧元兑美元汇率:1 比1.3)。我们有理由相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将有可能给IT 行业开拓一个新的黄金时代。

3.3、对企业的提升是大数据最大价值所在

大数据技术除了为各个行业带来显著的财务价值以外,在企业内部的应用也将极大提高各个企业的运营效率和营收能力。

根据美国德克萨斯大学针对数据有效性的一项研究表明,企业通过提升对自身数据的使用率和数据质量,能够显著提高企业的经营表现。

如果企业数据使用率提升10%,零售、咨询服务、航空等行业人均产出将分别提升49%、39%和21%。财富1000 强中的中位数企业,数据使用率提高10%能够每年增加约20 亿美元的营收,导致其人均产出提升约14.4%。

而数据质量的提升,将会对企业产生更为显著的影响,根据德州研究提供的数据,如果企业数据质量提升10%,公用事业、航空、电信、石油石化等行业受益最为明显,ROE 提升幅度将会超过200%,财富1000 强企业中ROE 的提升幅度中位数约为76%。

而大数据技术本身就是要把企业海量的数据利用起来,并从中提取有价值的信息,我们看好大数据技术未来将给企业带来实实在在的收益,随着广阔的商业用户市场打开,大数据技术将在给企业创造价值的过程中赢得属于自己的价值。

目前,在“大数据”领域已经出现了不少新兴的技术与产品,使得企业对数据的储存、处理和分析变得比以往任何时候都要更便宜、更快速。相信随着传统数据库技术的短板日益明显,大数据产品的日臻成熟,未来大数据技术将会被越来越多的企业所用,从而有可能极大的提高企业的人均产出和运营效率,有可能改变很多行业竞争的态势和经营业务的商业模式。

四、掘金大数据之寻觅大数据的投资机会

4.1、大数据对产业的影响:数据分析与存储两条主线

从前面章节中IDC 所提供的数据可以看到,目前证券、银行、传媒等行业的数据量已经极为庞大,而国内的电信、金融等行业,几乎已经到了“数据就是业务本身”的地步,大数据时代的来临已经毋庸置疑。而每一个大的时代来临,总是会伴以大的变革出现,我们即将面临一场变革,而这场变革,我们认为至少应该包括以下三个方面:

首先,中国企业会越来越重视数据

虽然历史上IT 技术对于劳动生产率的提升做出了实质性贡献,但是中国很多企业并不重视信息化,至于由信息化所产生的数据,自然更加难以得到企业的重视。

究其原因主要在于两点,第一是中国信息化起步相对较晚,中国企业自身所积累的数据量不够多,在相对有限的数据中,无法提炼出对企业有价值的信息;第二就是现有数据分析技术不够成熟,因为现有数据分析技术基本停留在数据展示的层面,并不能提供太多的增量信息和智能建议,企业仍然要依靠自己来进行决策,从数据中提取价值的能力太弱。

而大数据时代,随着企业自身数据量的持续膨胀以及企业数据边界的不断拓展,数据偏少的问题将得到有效解决,另外随着越来越成熟的数据分析产品出现,企业将会切身体会到大数据分析所带来的实惠,未来如有一两个标杆案例的出现,将极大的推动大数据技术在企业中的应用。在大数据时代,企业必然会越来越重视数据。

其次,大数据会加快中国信息化的进程

根据《2010 中国企业信息化指数调研报告》显示,中国信息化的水平虽然不断上升,但是目前信息化的深度仍然不够,58.8%的企业仍处于信息化建设的第一和第二阶段。其实,中国信息化程度偏低的情况从ERP 软件支出即可见一斑,中国IT 支出本来就低于全球平均水平,而中国ERP 软件占IT 支出比重也同样低于全球平均水平,两个低水平相乘,导致中国ERP 软件占GDP 的比重只有全球平均水平的三分之一,这与中国世界工厂——全球制造业大国的地位明显是不相符的。

虽然大数据技术的核心是对数据进行分析,从中提取有价值的信息。但是大数据的应用是有前提条件的,就是企业需要实现起码的信息化。虽然云计算时代,企业不一定要有自己的数据中心,但是一个信息化建设不完善,连起码的管理软件都未曾部署的企业,是没有搜集数据基础的。对一个基础数据管理都不完善的企业去谈大数据技术应用无异于去盖一栋空中楼阁。随着大数据一词持续走火,我们相信大数据时代,中国企业信息化的进程将会大大加快。

最后,企业将加大对存储设备的投入力度

大数据一个首要的问题就是大,而且数据量大到过量,过量的数据首先带来的一个问题就是存储能力的问题。根据IDC 预计,在下一个10 年(到2020 年),全世界的IT 部门都将看到:存储数据的服务器数量将增加10 倍(虚拟的和物理的)、有待管理的数据量将增加50 倍。出于对大数据时代的预期,我们认为企业将会加大对于存储设备的投入力度。

综上所述,我们认为大数据对中国产业的影响主要在于两根主线:数据分析与存储设备。前者一方面将加快中国企业信息化建设的进程,另一方面会刺激企业在数据分析相关产品上的支出;后者则会推动企业在硬件设备上的支出和数据中心的建设。