Python 开源 php linux 微软 mysql wordpress shell Android java apache linux命令 Firefox google Ubuntu Windows centos nginx 程序员 HTML5

EMC:海量数据鸿沟出现

EMC委托IDC进行的数码宇宙(Digital Universe)研究显示,研究结果发现大量由人类及机器产生的数据令“数码宇宙”创下史无前例的增长,但只有0.5%数据被用作分析。该研究预计数码宇宙于2020年将达到40ZB(40万亿GB),较过往的预测多出5ZB,比2010年初增长达50倍。

根据研究,在2012年共制造及复制2.8ZB(2.8万亿GB)数据。由机器产生的数据是带来全球数据增长的主要成因,预计到2020年将剧增15倍。在2020年前,新兴市场将取代已发展国家成为全球数据的主要制造者。有关数码宇宙基建如硬体、软体、服务、电讯及员工等的投资,预料在2012年至2020年间只上升40%。相对地,在储存管理、保安、海量数据及云端运算的增长将较快。IDC预计数码宇宙在2020年时将会达到40ZB,这个数量远高于过往所预测的14%。纯粹就数据量而言,40ZB数据相等于700,500,000,000,000,000,000沙粒铺垫在全球所有的沙滩上,等于全球所有沙滩的沙粒总数的57倍。如果我们能将所有40ZB的数据储存于今日的蓝光碟上,把所有光碟的重量(不带封套或光碟盒)加起来,相等于424艘尼米兹级核动力航空母舰。在2020年,40ZB相等于世界上每个人均拥有5,247 GB数据。

今年研究是IDC首次能够捕捉数码宇宙的资料来源、或首次被记录或使用的位置,揭示一些正在发生的重大转变。踏入第六个年头,旨量度及预测这个年度所制造及复制数码资料的研究,包括有关“海量数据鸿沟”的发现,这鸿沟存在于隐藏着重大价值的数据的数量与其价值真正被摘取的数据的数量之间;以及数据保护等级对真正被传递;以及全球数据地域分布的重大意义。

海量数据提供的机遇体现于从大量、未被开发的数据之中摘取价值。不过,大多数新数据很大程度都是未被标签并以档案为基础的非结构性数据,我们对这些数据所知甚少。在2012年只有3%有潜在价值的数据被标签,而有被分析的数据更少。有用数据的数量会随着“数码宇宙”的增长而递增。到了2020年,数码宇宙中33%的数据 (13,000+ exabytes)若被有效标签及分析,将可拥有海量数据的价值。

于2010年,“数码宇宙”中有不到三分之一的资讯获得保护,但这个比率预计于2020年上升至40%。于2012年,数码宇宙中有大约35%的资讯需要某程度上的数据保护,少于20%的数码宇宙真正获得此等保护。受保护程度因地而异,新兴市场所受的保护程度相对较低。更高层次的保安威胁、保安技术的落差,和缺乏可给依从的最佳保安实务,将继续对消费者和企业构成挑战。地理上的角色逆转近在眉睫:早年数码宇宙现象只出现于已发展国家,但随着新兴市场的人口增长,其数码宇宙的身影愈趋明显。新兴市场于2010年仅占数码宇宙的23%,在2012年已升至36%。IDC预测在2020年前,62%的数码宇宙将归属新兴市场。现时数码宇宙的环球市场分布为美国32%,西欧19%,中国13%,印度4%,其他国家32%。在2020年前,预计单是中国已产生占全球22%的数据。

云端运算将于海量数据管理中扮演更重要的角色,预计全球伺服器的数量将上升10倍,企业数据中心直接管理的资讯将上升14倍。于2020年前,IDC预测46.7%储存在云端的数据将会与娱乐有关,不再是企业数据。监控摄录机数据、嵌入式及医疗数据,以及由电脑、电话、及消费电子器材制造的资讯将占余下部分。储存于数码宇宙中有关个人用户的资讯超过他们自己制造的数据。

西欧现正投放最多资金来管理数码宇宙,每GB耗费2.49美元。美国排第二,每GB投资1.77美元,中国和印度分别以每GB投资1.31和0.87紧随于后。由于数码宇宙的基建更紧密连接,资讯已不会亦不需只存放于所使用的地区。 在2020年前,IDC预计接近40%数据将会“触及”云端运算(私有云及公共云),意味着每个位元组的产生和使用之间的某些过程将于云端中被储存或处理。

延伸阅读

评论