linux shell linux命令 微软 Android Python nginx php Firefox mysql google 开源 程序员 apache Ubuntu wordpress centos HTML5 Windows java

为什么我们说海量数据处理技术会火

大数据处理技术正在改变目前计算机的运行模式。我们已经从中获得了大量收益,因为正是大数据处理技术给我们带来了搜索引擎 Google。然而故事才刚刚开始,基于以下几个原因,我们说大数据处理技术正在改变着这个世界:

  1. 它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据。
  2. 它工作的速度非常快速:实际上几乎实时。
  3. 它具有普及性:因为它所用的都是最普通低成本的硬件

为什么我们说海量数据处理技术会火

大数据为以下这些公司提供了解决方案:eBay、Facebook、LinkedIn、Netflix、Twitter 以及 Zynga。

事实上大数据处理并非一项新的技术,它仅仅是小部分技术的一个术语简称。其中的某些技术已经与我们生活了数度春秋,然而时间推移到 2012 年,其中更小的部分技术就让大数据一下子火了起来。

  • 目前大数据市场已经达到 700 亿美元规模并以每年 15% 的速度增长

数据存储巨头 EMC 的 CEO Pat Gelsinger 最近透露,大数据处理目前的市场规模已达 700 亿美元并且正以每年 15-20% 的速度增长。几乎所有主要的大科技公司都对大数据感兴趣,对该领域的产品及服务进行了大量投入。其中包括了 IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo 等,而且这个列表还在继续。

为什么我们说海量数据处理技术会火

眼见着这些财大气粗的大公司动作频繁,VC 们也没闲着,因为该领域将是他们未来的摇钱树。他们正寻找大数据领域可靠的创业企业进行投资,创新孵化机构 Accel 就于去年 11 月建立了 1 亿美元的“大数据”基金,同样,IA Ventures 也于之前的一个月建立同样的基金。

  • 大数据领域正吸引大量的人才进入

所有关于大数据的东西都在于“大”:潜在市场大、该领域的企业大,就算是那些刚刚进入该领域进行创业的小团队,他们拿到的投资额也大。因此,如 果看到大量硅谷工程师牛人进入该领域的情形,我们不会感到意外。来自 Google、Facebook 以及 Yahoo 的工程师,正排队进入像 Cloudera、Hortonworks 以及 MapR 这样的大数据领域创业公司。

  • 廉价技术使大数据变成可能

大数据处理之所以发生是因为存在这样的需求:

  1. 云技术给了人们廉价获取巨量计算和存储的能力。你不必去买一个大型机或者一个数据处理中心,只需为你使用的部分付费。
  2. 社交媒体意味着每个人都在创造有趣的数据也消费这些数据。
  3. 拥有 GPS 定位系统的智能手机正提供人们日常生活中新的见解。
  4. 宽带连接的普及使得人们时刻保持在线状态

为什么我们说海量数据处理技术会火

  • 任务分解,大数据技术由四种技术构成

我们前面提到大数据技术是很多种技术的某种集合,它们包括:

  1. 分析技术
  2. 存储数据库
  3. NoSQL 数据库
  4. 分布式计算技术

为什么我们说海量数据处理技术会火

  • 分析技术意味着对海量数据进行分析以实时得出答案

人们会思考运用云技术我们能做什么?IBM 副总裁兼云计算 CTO Lauren States 解释说,运用大数据与分析技术,我们希望能获得一种洞察力。她提供了一个澳大利亚网球公开赛的一个案例。当时组委会在 IBM 的云平台上建立了一个叫 Slam Tracker 的分析引擎,Slam Tracker 收集了最近 5 年比赛的近 3900 万份统计数据。通过这些数据分析出了运动员们在获胜时的一些表现模式。

  • 内存数据库技术(In-Memory Databases)让信息快速流通

大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。

为什么我们说海量数据处理技术会火

  • NoSQL 数据库是一种建立在云平台的新型数据处理模式

NoSQL 在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数 据。它为 Zynga、AOL、Cisco 以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是 NoSQL 数据库则完全不关心这些,它能处理各种类型的文档。

在处理海量数据同时请求时,它也不会有任何问题。比方说,如果有 1000 万人同时登录某个 Zynga 游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与 1 万人同时在线没什么两样。

  • NoSQL 来自于大小不一的玩家

现今有多种不同类型的 NoSQL 模式。商业化的模式如 Couchbase、10gen 的 mongoDB 以及 Oracle 的 NoSQL;开源免费的模式如 CouchDB 和 Cassandra;还有亚马逊最新推出的 NoSQL 云服务。

  • 分布式计算结合了 NoSQL 与实时分析技术

如果想要同时处理实时分析与 NoSQL 数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。

SGI 的 Sunny Sundstrom 解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技 术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。

  • 分布式计算技术让不可能变成可能

分布式计算技术正引领着将不可能变为可能。Skybox Imaging 就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结 果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。

为什么我们说海量数据处理技术会火

  • 分布式计算技术是 Google 的核心,也是 Yahoo 的基础

目前分布式计算技术是基于 Google 创建的技术,但是却最新由 Yahoo 所建立。Google 总共发表了两篇论文,2004年发表的叫做 MapReduce 的论文介绍了如何在多计算机之间进行数据处理;另一篇于 2003 年发表,主要是关于如何在多服务器上存储数据。

来自于 Yahoo 的工程师 Doug Cutting 在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象命名。如今 Cutting 已经离开 Yahoo,加入了最大的分布式系统创业公司 Cloudera。其它一些创业企业包括 MapR 以及 Yahoo 自己的 Hortonworks。但是所有最大的 IT 供应商都提供这个技术,它们或者以产品的形式,或者基于其云计算平台。

  • 该技术经常是免费的,但是咨询费则相当昂贵

大多数大数据技术都是开放项目并且免费,通过提供服务来盈利。很多有需求的 IT 企业不了解如何建立这方面的应用,也没有这个必要。主流的 IT 公司都在建立这方面的产品和服务,以帮助企业充分利用分布式技术的强大优势。其中包括了很多正在崛起的初创企业。我们可以相信,未来类似 Google 这样的企业将更多来自于这些创业企业。

为什么我们说海量数据处理技术会火

延伸阅读

评论