对云计算的认识

云计算是一个将 IT 以服务的形式进行交付的全面解决方案。云中的计算机被配置成协同工作的模式,那些使用这些计算机资源的应用就好象在使用一个计算实例一样。云计算的灵活性在于能够按需分配资源。因此,不再需要给任务分配特定的硬件,这会提高现有系统资源的利用率。在云计算出现之前,网站和基于服务器的应用程序都在特定的系统上运行。有了云计算之后,资源就集合为一台虚拟的计算机。在这种融合式配置提供的环境中,独立地执行应用程序,不需要关心任何具体配置。

出现向云计算转移这一潮流有许多合理的重要的业务和 IT 原因。原因之一是外包的基本性质要求有更合适的解决方案。

降低成本:云计算可以降低资本费用 (CapEx) 和运营费用 (OpEx),因为可以只在需要时购买资源,而且只按使用时间付费。

优化人力资源的使用:使用云计算可以解放宝贵的人力资源,让他们能够把精力集中在创造价值上,而不是维护硬件和软件。

健壮的可伸缩性:云计算允许快速地扩大或收缩规模,既没有时间限制,也不需要承担长期义务 基础架构层是云的基础。它由服务器、网络设备、存储磁盘等物理资产组成。IBM Cloud 等提供基础架构即服务(Infrastructure as a Service ,IaaS) 。在使用 IaaS 时,用户并不实际控制底层基础架构,而是控制操作系统、存储和部署应用程序,还在有限的程度上控制网络组件的选择。

随需印刷 (Print On Demand,POD) 服务就是可以受益于 IaaS 的例子之一。POD 模型基于可定制产品的销售。POD 让个人能够在产品上进行设计并开店销售。店主可以上传他们的设计,数量不限。许多人上传了数千种设计。通过使用云存储功能,POD 可以提供无限的存储空间。

中间层是平台。它提供应用程序基础架构。平台即服务 (Platform as a Service,PaaS) 提供对操作系统和相关服务的访问。它让用户能够使用提供商支持的编程语言和工具把应用程序部署到云中。用户不必管理或控制底层基础架构,而是控制部署的应用程序并在一定程度上控制应用程序驻留环境的配置。

PaaS 的提供者包括 Amazon 的 Elastic Compute Cloud (EC2) 、google app engine等。小企业软件工作室是非常适合使用 PaaS 的企业。通过使用云平台,可以创建世界级的产品,而不需要负担内部生产的开销。

最上面一层是应用程序层,这一层是对云的最直观表示。应用程序在这里运行,根据需要提供给用户。软件既服务 (Software as a Service,SaaS) 的提供者包括 Google Pack 等。Google Pack 包含可以通过 Internet 访问的应用程序和工具,比如 Calendar、Gmail 、Google Talk、Docs 等等。

云的构成有三种类型:私有(内部)、公共和混合型。

公共云可供一般公众或大型行业组织使用,由销售云服务的组织拥有和供应。公共云被看作一般意义上的云;也就是说,离站的第三方提供商使用 web 应用程序通过 Internet 动态地供应资源,它们提供共享的资源并按使用量收费。

私有云位于公司防火墙之内,由组织自己管理。它们是在企业内部创建和控制的云服务。私有云具有许多与公共云相同的优点,主要差异在于您的组织负责创建和维护云。

混合型云是公共云和私有云的组合,同时使用公共和私有的服务。公共云提供商和企业本身分别承担一部分管理责任。通过使用混合型云,组织可以先判断要创建的服务的目标和需求,然后以最合适的方式获得它们。

有人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成,也有人说大数据是来搅局的。

对此,IBM 全球高级副总裁、系统与科技部(STG)总经理Rod Adkins 认为,当前全球IT 领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会; 数据中心的挑战也为IT 提供了新机会,比如云计算,能降低数据中心成本;IBM 希望通过智慧的运算,实现智慧的地球的愿景。

英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔认为,大数据本身其实是信息革命的一个新引领。在未来几年随着物联网的发展,可能会有2100亿个RFID 或者集群,在我们的环境

之中,如果未来的移动互联、物联网如果变成现实,我们的生活会被传感器、会被数据采集装置所拥抱,这时候数据量将更大。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。

VMware 全球高级副总裁范承工认为,在过去三年当中,看到大数据的发展从无到有,市场上大家说大数据的趋势,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。

EMC 的大数据和存储专家、EMC 资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。

对于大数据给云计算带来的影响,Teradata 技术总监Stephen Brobst表示,公有云架构对数据仓库没有影响,因为企业的CIO 不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题; 第二,可以通过灵敏的方式将数据集成,实现业务价值。

其实云计算与大数据的不同之处在于应用的不同,主要在两个方面:

第一,在概念上两者有所不同,云计算改变了IT ,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是卖给CIO 的技术和产品,是一个进阶的IT 解决方案。而大数据是卖给CEO 、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。

Hadoop 是Apache 基金会发起和研发的,是目前业界公认的开放平台之一。授权公司可以发布自己相应的Hadoop 版本。以Hadoop 为代表的分布式系统,是大数据系统必要组成部分。必要性体现在现在的大数据中很多数据是机器产生的数据,或者是物联网各种各样的探测器、电脑产生的日志,这些是人为产生的,而且数量巨大,不适合把它直接放到数据库中去,而Hadoop 就提供了全新的方式,可以轻松进行平面扩展,把这些数据放在库里进行任意的数据分析。Hadoop 成功的建立了这个环境,使得围绕Hadoop 的软件能够提供各种各样的功能,完成智能分析工作。

然而,大数据不仅仅是Hadoop ,在对数据进行分析时,用户可以把数据放池子里,Hadoop 则把这些数据分成几百个、几千个节点,这是在特定的某些应用场景必须进行的部分。但是更多的应用场景是需要实时的反应,互动的反应,这时候就需要其他技术,包括内存类检索技术,甚至在数据产生时要进行实时反应的技术。这些技术都结合在一起,才是一个完整的大数据处理系统。

不论大数据时代是否真的来临,作为企业级服务厂商都应该走在受众的前面,应对大数据。

1.IBM :4V 理论+大数据分析平台

IBM 基于大数据提出了规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”,帮助企业直观认知和准确把握大数据特质。

IBM 早在2007年11月就推出了蓝云计算平台,“蓝云”基于IBMAlmaden 研究中心

(AlmadenResearchCenter)的云基础架构,包括Xen 和PowerVM 虚拟化、Linux 操作系统映像以及Hadoop 文件系统与并行构建。

此外,IBM 还有大数据分析平台——InfoSphere 。InfoSphere 是IBM 进军大数据领域的强有力武器,其包括 BigInsights和Streams, 二者互补,Biglnsights 基于Hadoop, 对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力; 而Streams 采用内存计算方式分析实时数据。InfoSphere 大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

2. 英特尔:硬件+软件 火力很猛

硬件上,英特尔从CPU 、存储、内存一切的技术考虑怎么样使得新一代的系统架构,以及数据中心的解决方案能够更适合大数据的要求。

软件上,英特尔提供优化的中间件。以Hadoop 为例,英特尔在Hadoop 系统,在Hbase 、HDFS 上都做了增强和优化,使它们在英特尔的平台上,在英特尔的硬件上性能得到显著的提高,并推出了Intel Hadoop Manager2.0。

据介绍,Intel Hadoop Manager2.0 优化了Hadoop 的处理能力,把拟数据采集到数据处理缩短到近于实时处理,且在英特尔平台上性能会成倍增长。

3.VMware :虚拟化架构+云平台

VMware 公司大中华区总裁宋家瑜认为,云的平台才是唯一能解决爆炸性大数据使用的需求,把关键应用移到云平台已经是一个必然趋势。因此,VMware 把尝试着把大数据应用到虚拟环境的云端。

VMware 推出的开源项目Serenget ,支持企业在云端和虚拟环境中,在vSphere 上部署和管理Hadoop 。据介绍,在这样的环境下,Hadoop 部署时间可以从很多天缩短到10分钟。

此外,VMware 在统一的vSphere 虚拟化架构之上,提供GemFire 实时处理、GreenPlum 交互处理及Hadoop 批处理三种模式,满足用户的海量、快速及灵活的大数据处理需求,并为开发者、数据分析师、数据科学家和商务用户提供数据分析及可视化的数据展示。VMware 还公布了一个大数据分析平台

UAP(Universal Analytics Platform),其中包括Greenplum database、Hadoop 和Chorus 分析软件,帮助客户同时分析处理结构化和非结构化的数据。

4.EMC :EMC HADOOP

EMC 发布了EMC HADOOP版本,它主要进行实时、非结构化的数据处理。EMC 的产品系列在HADOOP 包括三个方面:Greenplum HD社区版;Greenplum 企业版;Greenplum HD Data Computing Appliance。

据介绍,在Greenplum HD 中有一些核心的技术创新:可插拔I/O,可以用Isilon OneFS 夺存储系统,也可以用Atmos 等,提高效率和性能; 实时处理可以实时数据交互和分析处理; 在容错方面,消除名称节点的单点鼓掌,作业跟踪其及其他关键组件方面有很多优化。它最大的亮点是Greenplum Database 与Apache HADOOP 强强联合,这样的一个一体机实现了结构化、非结构化数据之间无缝的集成。

此外,甲骨文也推出了大数据机,为企业提供一种处理海量非结构化数据的方法,集成了硬件、存储和软件,包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL 数据库和用于统计分析的R 语言开源代码分发。

大数据到底能给企业带来什么价值呢?本质上说,大数据本身没有太多价值,基于大数据的处理和分析才能为企业带来的巨大的增值价值。

曹开彬认为,大数据里面包含企业运营的各种信息,如果能对它们进行及时有效充分地整理和分析,才可以很好地、迅速地帮助企业进行业务决策,响应客户需求,提升竞争力。

两个月前,刚刚以大数据概念在纳斯达克上市的美国公司Splunk 可以让我们很容易的理解这一点。 Splunk 提供一款可运行于各种平台的IT 数据、日志分析软件,可以让IT 运维人员以类似谷歌搜索关键词的方式,快速搜索并查看任何IT 设备运行过程中产生的信息。

一个简单的场景是,当IT 设备出现异常时,IT 运维人员只需要搜索关键词“Error”,系统便会列出包含“Error”的机器运行日志,并以非常好的图形化方式展现出来。IT 运维人员可以据此判断出是异常出现的具体时间,具体设备,并分析故障原因。

显然,与以前凭借经验进行故障判断相比,数据分析提供了更精准的信息,而这便是大数据的魅力所在。那么,企业该如何抓住大数据带来的机遇呢?

Teradata 大中华区首席执行官辛儿伦对新浪科技表示,随着大数据时代的到来,企业应该在内部培养三种能力。第一,整合企业数据的能力; 第二,探索数据背后价值和制定精确行动纲领的能力; 第三,进行精确快速实时行动的能力。

“如果企业在信息治理上培养出这三种能力,对未来大数据时代的驾驭能力会增强,对面临到的挑战会降到最低。”辛儿伦表示。

厂商布局

辛儿伦所在的Teradata 公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合,分析,探索、挖掘数据背后的价值。最近两年,Teradata 通过收购将业务从结构化数据延伸到非结构化、大数据领域。

2011年,Teradata 先后收购了云计算软件公司Aprimo 及高级分析和管理各种非结构化数据领域的AsterData 公司。今年5月8日,Aprimo 收购了基于云的数字营销欧洲领导厂商eCircle ,进一步加强并拓展了Teradata 大数据市场的业务。

与Teradata 一样看好的大数据的还有IBM 、甲骨文、惠普、EMC 、微软等传统IT 厂商,他们也在通过自主研发或者收购的方式进入大数据领域。

IBM 在过去五年里,已经斥资超过140亿美元进行了20多笔与数据分析相关的收购交易。甲骨文这家以结构化数据库起家的IT 公司,推出了大数据机及智能分析解决方案。

去年8月,惠普以100亿美元收购英国软件公司Autonomy ,其实也是为了扩大商业分析软件的市场份额。Autonomy 通过独有的算法可以提取出非结构化信息中的含义。

在美国硅谷,Splunk 只是大数据领域的一家企业而已,仍有多家创业公司已经聚焦在大数据领域,并且获得风险投资的注资。

国内企业落后

与国外大数据的热火朝天相比,国内企业参与这一领域的并不多。

“国内IT 尤其是软件企业在布局大数据方面,已经落后。”曹开彬认为,这主要是国内企业在数据库、数据仓库、商业智能等领域基础薄弱。

不过,他指出,国内企业在这方面仍有机会,但需要找准行业与切入点。

对于国内可能出现大数据公司的领域,曹开彬表示,“我比较看好互联网公司,像百度、阿里巴巴、腾讯,这样的互联网公司比传统的IT 和软件公司更有机会。”

实际上,作为中国最大的电子商务公司阿里巴巴已经在利用大数据技术提供具体服务:阿里信用贷款与淘宝数据魔方。

以阿里信用贷款为例,阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。

淘宝数据魔方则是淘宝平台上的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策。

不过,谢文并不认为这些是真正的大数据。他表示,未来能够称得上大数据的公司将是Facebook 、苹果、谷歌等这样的平台型公司。

他表示,国内没有一家真正朝大数据方向努力的公司。“国内很多公司都在做分拆,并且产品数据也不相通。短期来看,这样可以提高效率,但是长期看,这是反大数据方向的。”

1、大数据仅仅是海量的数据量

容量仅仅是界定大数据定义的关键要素之一,而对于大数据的定义至少有三个方面的重要要素。其他两方面分别是种类和传输速度。与后两者相结合,便是Gartner 调研公司的道格?兰尼最初在2001年的调研报告中给出的关于大数据的概念。

一般来说,专家们普遍认为PB 级的数据为大数据的起点,尽管这一指标仍然是一个变化中的目标。因此,虽然容量这一因素是非常重要的,而接下来的另外两个衡量指标也不容忽视。

种类是指许多不同的数据和文件类型,对于管理和更深入的分析数据是至关重要的。但不适合传统的关系数据库。这方面的例子包括各种声音和电影文件、图像、文档、地理定位数据、网络日志和文本字符串。

速度是有关数据的变化率,以及其必须如何快速的被使用,以创造真正的价值。传统技术,尤其不适合用于高速数据储存和使用。因此,采用新的方法是必要的。如果有问题的数据创建和聚合速度非常快,

就必须使用迅速的方式来揭示其相关的模式和问题。你发现问题的速度越快,就越有利于您从你大数据分析中获得更多的机会。

2、大数据指的是Hadoop

Hadoop 是Apache 为大数据工作的开源软件框架。其是来自于Google 的技术加上雅虎的理念和其他,并付诸实践得出的。但是,大数据是如此的多样,和复杂,其绝对不存在一套放之四海而皆准的万能的解决办法。虽然Hadoop 已经毫无疑问的获得了相当大的知名度,但其也仅仅只是适合大数据存储和管理的三种技术的其中之一。其他两个种技术上NoSQL 和大规模并行处理(MPP )数据存储。MPP 数据存储的例子包括EMC 的Greenplum 、IBM 公司的Netezza 和惠普的Vertica.

此外,Hadoop 是一个软件框架,这意味着它包括若干专门设计的组件,是专门设计来解决大规模分布式数据存储,分析和检索任务的。不是所有的Hadoop 组件都是必要的,对于一个大的数据解决方案,其中一些组件可取代其他技术,更好地配合用户的需求。一个例子是MapR 的Hadoop ,其中包括NFS 作为HDFS 的替代,并提供了一个完整的随机存取,读/写文件系统。

3、大数据意味着非结构化数据

“非结构化”这一术语是不准确的,其没有考虑到许多通常与大数据类型相关的不同的和微妙的结构。此外,大数据很可能在同一数据集有不同的数据类型,不包含相同的结构。

因此,大数据更好可能是被称为“多层结构”,因为它可以包含文本字符串、所有类型的文件、音频和视频文件、元数据、网页、电子邮件、社交媒体供稿、表格数据,等等。这些不同的数据类型一致的特点是不知道其数据架构或不知道在这些数据被捕获和存储时如何定义。相反,一个数据模型经常在数据被使用时进行应用。

4、大数据只是社会媒体内容和情感分析

简而言之,如果您的企业需要广泛地分析网络流量、IT 系统日志、客户的情绪,或任何其他类型的每一天所创建的数字纪录册上的阴影,大数据提供了一个办法做到这一点。即使大数据的早期开拓者,已成为最大的基于网络的社会化媒体公司:谷歌、雅虎、Facebook ,他们的服务所产生的数据,需要一种全新的解决方案,而不是分析社会媒体内容和访客情感分析。

现在,由于迅速增长的计算机电源(通常是基于云计算的)、开源软件(例如,Apache 的Hadoop 发行版),以及如果利用得当现代化对于数据可以产生经济价值的冲击,大数据源源不断地产生新的用途和应用。大数据带来了很多让人欣喜的成果,其中包含了一些令人深思的用途,这在今年年初曾经在“福布斯”上的相关文章中报道过。

5、NoSQL 意味着非结构化查询语言

NoSQL 意味着“不仅仅”是SQL ,因为这些类型的数据存储提供特定领域的访问和查询技术,除了SQL 或类似SQL 接口。NoSQL 这一类的技术,包括关键值存储、面向文档的数据库、图形数据库、大表结构和缓存数据存储。具体的本地存储的数据访问方法提供了一个丰富的、低延时的方法,通常是通过专有接口。SQL 访问具有熟悉许多工具并与之兼容的优势。虽然这通常是在一些底层系统解释查询本地的“语言”的延迟费用。

Hive :Hive 最早是由Facebook 设计的,是一个建立在Hadoop 基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop 文件中的数据集的工具。Hive 提供的是一种结构化数据的机制,它支持类似于传统RDBMS 中的SQL 语言来帮助那些熟悉SQL 的用户查询Hadoop 中的数据,该查询语言称为Hive QL。与此同时,那些传统的MapReduce 编程人员也可以在Mapper 或Reducer 中通过Hive QL查询数据。Hive 编译器会把Hive QL 编译成一组MapReduce 任务,从而方便MapReduce 编程人员进行Hadoop 应用的开发。

HBase :HBase 是一个分布式的、面向列的开源数据库,该技术来源于Google 的论文“Bigtable:一个结构化数据的分布式存储系统”。如同Bigtable 利用了Google 文件系统(Google File System)提供的分布式数据存储方式一样,HBase 在Hadoop 之上提供了类似于Bigtable 的能力。HBase 是Hadoop 项目的子项目。HBase 不同于一般的关系数据库,其一,HBase 是一个适合于存储非结构化数据的数据库; 其二,

HBase 是基于列而不是基于行的模式。HBase 和Bigtable 使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase 表示疏松的,用户可以给行定义各种不同的列。HBase 主要用于需要随机访问、实时读写的大数据(Big Data)。

Pig :Pig 是一个对大型数据集进行分析和评估的平台。Pig 最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig 的底层由一个编译器组成,它在运行的时候会产生一些MapReduce 程序序列,Pig 的语言层由一种叫做Pig Latin的正文型语言组成。

云计算是一个将 IT 以服务的形式进行交付的全面解决方案。云中的计算机被配置成协同工作的模式,那些使用这些计算机资源的应用就好象在使用一个计算实例一样。云计算的灵活性在于能够按需分配资源。因此,不再需要给任务分配特定的硬件,这会提高现有系统资源的利用率。在云计算出现之前,网站和基于服务器的应用程序都在特定的系统上运行。有了云计算之后,资源就集合为一台虚拟的计算机。在这种融合式配置提供的环境中,独立地执行应用程序,不需要关心任何具体配置。

出现向云计算转移这一潮流有许多合理的重要的业务和 IT 原因。原因之一是外包的基本性质要求有更合适的解决方案。

降低成本:云计算可以降低资本费用 (CapEx) 和运营费用 (OpEx),因为可以只在需要时购买资源,而且只按使用时间付费。

优化人力资源的使用:使用云计算可以解放宝贵的人力资源,让他们能够把精力集中在创造价值上,而不是维护硬件和软件。

健壮的可伸缩性:云计算允许快速地扩大或收缩规模,既没有时间限制,也不需要承担长期义务 基础架构层是云的基础。它由服务器、网络设备、存储磁盘等物理资产组成。IBM Cloud 等提供基础架构即服务(Infrastructure as a Service ,IaaS) 。在使用 IaaS 时,用户并不实际控制底层基础架构,而是控制操作系统、存储和部署应用程序,还在有限的程度上控制网络组件的选择。

随需印刷 (Print On Demand,POD) 服务就是可以受益于 IaaS 的例子之一。POD 模型基于可定制产品的销售。POD 让个人能够在产品上进行设计并开店销售。店主可以上传他们的设计,数量不限。许多人上传了数千种设计。通过使用云存储功能,POD 可以提供无限的存储空间。

中间层是平台。它提供应用程序基础架构。平台即服务 (Platform as a Service,PaaS) 提供对操作系统和相关服务的访问。它让用户能够使用提供商支持的编程语言和工具把应用程序部署到云中。用户不必管理或控制底层基础架构,而是控制部署的应用程序并在一定程度上控制应用程序驻留环境的配置。

PaaS 的提供者包括 Amazon 的 Elastic Compute Cloud (EC2) 、google app engine等。小企业软件工作室是非常适合使用 PaaS 的企业。通过使用云平台,可以创建世界级的产品,而不需要负担内部生产的开销。

最上面一层是应用程序层,这一层是对云的最直观表示。应用程序在这里运行,根据需要提供给用户。软件既服务 (Software as a Service,SaaS) 的提供者包括 Google Pack 等。Google Pack 包含可以通过 Internet 访问的应用程序和工具,比如 Calendar、Gmail 、Google Talk、Docs 等等。

云的构成有三种类型:私有(内部)、公共和混合型。

公共云可供一般公众或大型行业组织使用,由销售云服务的组织拥有和供应。公共云被看作一般意义上的云;也就是说,离站的第三方提供商使用 web 应用程序通过 Internet 动态地供应资源,它们提供共享的资源并按使用量收费。

私有云位于公司防火墙之内,由组织自己管理。它们是在企业内部创建和控制的云服务。私有云具有许多与公共云相同的优点,主要差异在于您的组织负责创建和维护云。

混合型云是公共云和私有云的组合,同时使用公共和私有的服务。公共云提供商和企业本身分别承担一部分管理责任。通过使用混合型云,组织可以先判断要创建的服务的目标和需求,然后以最合适的方式获得它们。

有人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成,也有人说大数据是来搅局的。

对此,IBM 全球高级副总裁、系统与科技部(STG)总经理Rod Adkins 认为,当前全球IT 领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会; 数据中心的挑战也为IT 提供了新机会,比如云计算,能降低数据中心成本;IBM 希望通过智慧的运算,实现智慧的地球的愿景。

英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔认为,大数据本身其实是信息革命的一个新引领。在未来几年随着物联网的发展,可能会有2100亿个RFID 或者集群,在我们的环境

之中,如果未来的移动互联、物联网如果变成现实,我们的生活会被传感器、会被数据采集装置所拥抱,这时候数据量将更大。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。

VMware 全球高级副总裁范承工认为,在过去三年当中,看到大数据的发展从无到有,市场上大家说大数据的趋势,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。

EMC 的大数据和存储专家、EMC 资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。

对于大数据给云计算带来的影响,Teradata 技术总监Stephen Brobst表示,公有云架构对数据仓库没有影响,因为企业的CIO 不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题; 第二,可以通过灵敏的方式将数据集成,实现业务价值。

其实云计算与大数据的不同之处在于应用的不同,主要在两个方面:

第一,在概念上两者有所不同,云计算改变了IT ,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是卖给CIO 的技术和产品,是一个进阶的IT 解决方案。而大数据是卖给CEO 、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。

Hadoop 是Apache 基金会发起和研发的,是目前业界公认的开放平台之一。授权公司可以发布自己相应的Hadoop 版本。以Hadoop 为代表的分布式系统,是大数据系统必要组成部分。必要性体现在现在的大数据中很多数据是机器产生的数据,或者是物联网各种各样的探测器、电脑产生的日志,这些是人为产生的,而且数量巨大,不适合把它直接放到数据库中去,而Hadoop 就提供了全新的方式,可以轻松进行平面扩展,把这些数据放在库里进行任意的数据分析。Hadoop 成功的建立了这个环境,使得围绕Hadoop 的软件能够提供各种各样的功能,完成智能分析工作。

然而,大数据不仅仅是Hadoop ,在对数据进行分析时,用户可以把数据放池子里,Hadoop 则把这些数据分成几百个、几千个节点,这是在特定的某些应用场景必须进行的部分。但是更多的应用场景是需要实时的反应,互动的反应,这时候就需要其他技术,包括内存类检索技术,甚至在数据产生时要进行实时反应的技术。这些技术都结合在一起,才是一个完整的大数据处理系统。

不论大数据时代是否真的来临,作为企业级服务厂商都应该走在受众的前面,应对大数据。

1.IBM :4V 理论+大数据分析平台

IBM 基于大数据提出了规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”,帮助企业直观认知和准确把握大数据特质。

IBM 早在2007年11月就推出了蓝云计算平台,“蓝云”基于IBMAlmaden 研究中心

(AlmadenResearchCenter)的云基础架构,包括Xen 和PowerVM 虚拟化、Linux 操作系统映像以及Hadoop 文件系统与并行构建。

此外,IBM 还有大数据分析平台——InfoSphere 。InfoSphere 是IBM 进军大数据领域的强有力武器,其包括 BigInsights和Streams, 二者互补,Biglnsights 基于Hadoop, 对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力; 而Streams 采用内存计算方式分析实时数据。InfoSphere 大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

2. 英特尔:硬件+软件 火力很猛

硬件上,英特尔从CPU 、存储、内存一切的技术考虑怎么样使得新一代的系统架构,以及数据中心的解决方案能够更适合大数据的要求。

软件上,英特尔提供优化的中间件。以Hadoop 为例,英特尔在Hadoop 系统,在Hbase 、HDFS 上都做了增强和优化,使它们在英特尔的平台上,在英特尔的硬件上性能得到显著的提高,并推出了Intel Hadoop Manager2.0。

据介绍,Intel Hadoop Manager2.0 优化了Hadoop 的处理能力,把拟数据采集到数据处理缩短到近于实时处理,且在英特尔平台上性能会成倍增长。

3.VMware :虚拟化架构+云平台

VMware 公司大中华区总裁宋家瑜认为,云的平台才是唯一能解决爆炸性大数据使用的需求,把关键应用移到云平台已经是一个必然趋势。因此,VMware 把尝试着把大数据应用到虚拟环境的云端。

VMware 推出的开源项目Serenget ,支持企业在云端和虚拟环境中,在vSphere 上部署和管理Hadoop 。据介绍,在这样的环境下,Hadoop 部署时间可以从很多天缩短到10分钟。

此外,VMware 在统一的vSphere 虚拟化架构之上,提供GemFire 实时处理、GreenPlum 交互处理及Hadoop 批处理三种模式,满足用户的海量、快速及灵活的大数据处理需求,并为开发者、数据分析师、数据科学家和商务用户提供数据分析及可视化的数据展示。VMware 还公布了一个大数据分析平台

UAP(Universal Analytics Platform),其中包括Greenplum database、Hadoop 和Chorus 分析软件,帮助客户同时分析处理结构化和非结构化的数据。

4.EMC :EMC HADOOP

EMC 发布了EMC HADOOP版本,它主要进行实时、非结构化的数据处理。EMC 的产品系列在HADOOP 包括三个方面:Greenplum HD社区版;Greenplum 企业版;Greenplum HD Data Computing Appliance。

据介绍,在Greenplum HD 中有一些核心的技术创新:可插拔I/O,可以用Isilon OneFS 夺存储系统,也可以用Atmos 等,提高效率和性能; 实时处理可以实时数据交互和分析处理; 在容错方面,消除名称节点的单点鼓掌,作业跟踪其及其他关键组件方面有很多优化。它最大的亮点是Greenplum Database 与Apache HADOOP 强强联合,这样的一个一体机实现了结构化、非结构化数据之间无缝的集成。

此外,甲骨文也推出了大数据机,为企业提供一种处理海量非结构化数据的方法,集成了硬件、存储和软件,包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL 数据库和用于统计分析的R 语言开源代码分发。

大数据到底能给企业带来什么价值呢?本质上说,大数据本身没有太多价值,基于大数据的处理和分析才能为企业带来的巨大的增值价值。

曹开彬认为,大数据里面包含企业运营的各种信息,如果能对它们进行及时有效充分地整理和分析,才可以很好地、迅速地帮助企业进行业务决策,响应客户需求,提升竞争力。

两个月前,刚刚以大数据概念在纳斯达克上市的美国公司Splunk 可以让我们很容易的理解这一点。 Splunk 提供一款可运行于各种平台的IT 数据、日志分析软件,可以让IT 运维人员以类似谷歌搜索关键词的方式,快速搜索并查看任何IT 设备运行过程中产生的信息。

一个简单的场景是,当IT 设备出现异常时,IT 运维人员只需要搜索关键词“Error”,系统便会列出包含“Error”的机器运行日志,并以非常好的图形化方式展现出来。IT 运维人员可以据此判断出是异常出现的具体时间,具体设备,并分析故障原因。

显然,与以前凭借经验进行故障判断相比,数据分析提供了更精准的信息,而这便是大数据的魅力所在。那么,企业该如何抓住大数据带来的机遇呢?

Teradata 大中华区首席执行官辛儿伦对新浪科技表示,随着大数据时代的到来,企业应该在内部培养三种能力。第一,整合企业数据的能力; 第二,探索数据背后价值和制定精确行动纲领的能力; 第三,进行精确快速实时行动的能力。

“如果企业在信息治理上培养出这三种能力,对未来大数据时代的驾驭能力会增强,对面临到的挑战会降到最低。”辛儿伦表示。

厂商布局

辛儿伦所在的Teradata 公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合,分析,探索、挖掘数据背后的价值。最近两年,Teradata 通过收购将业务从结构化数据延伸到非结构化、大数据领域。

2011年,Teradata 先后收购了云计算软件公司Aprimo 及高级分析和管理各种非结构化数据领域的AsterData 公司。今年5月8日,Aprimo 收购了基于云的数字营销欧洲领导厂商eCircle ,进一步加强并拓展了Teradata 大数据市场的业务。

与Teradata 一样看好的大数据的还有IBM 、甲骨文、惠普、EMC 、微软等传统IT 厂商,他们也在通过自主研发或者收购的方式进入大数据领域。

IBM 在过去五年里,已经斥资超过140亿美元进行了20多笔与数据分析相关的收购交易。甲骨文这家以结构化数据库起家的IT 公司,推出了大数据机及智能分析解决方案。

去年8月,惠普以100亿美元收购英国软件公司Autonomy ,其实也是为了扩大商业分析软件的市场份额。Autonomy 通过独有的算法可以提取出非结构化信息中的含义。

在美国硅谷,Splunk 只是大数据领域的一家企业而已,仍有多家创业公司已经聚焦在大数据领域,并且获得风险投资的注资。

国内企业落后

与国外大数据的热火朝天相比,国内企业参与这一领域的并不多。

“国内IT 尤其是软件企业在布局大数据方面,已经落后。”曹开彬认为,这主要是国内企业在数据库、数据仓库、商业智能等领域基础薄弱。

不过,他指出,国内企业在这方面仍有机会,但需要找准行业与切入点。

对于国内可能出现大数据公司的领域,曹开彬表示,“我比较看好互联网公司,像百度、阿里巴巴、腾讯,这样的互联网公司比传统的IT 和软件公司更有机会。”

实际上,作为中国最大的电子商务公司阿里巴巴已经在利用大数据技术提供具体服务:阿里信用贷款与淘宝数据魔方。

以阿里信用贷款为例,阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。

淘宝数据魔方则是淘宝平台上的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策。

不过,谢文并不认为这些是真正的大数据。他表示,未来能够称得上大数据的公司将是Facebook 、苹果、谷歌等这样的平台型公司。

他表示,国内没有一家真正朝大数据方向努力的公司。“国内很多公司都在做分拆,并且产品数据也不相通。短期来看,这样可以提高效率,但是长期看,这是反大数据方向的。”

1、大数据仅仅是海量的数据量

容量仅仅是界定大数据定义的关键要素之一,而对于大数据的定义至少有三个方面的重要要素。其他两方面分别是种类和传输速度。与后两者相结合,便是Gartner 调研公司的道格?兰尼最初在2001年的调研报告中给出的关于大数据的概念。

一般来说,专家们普遍认为PB 级的数据为大数据的起点,尽管这一指标仍然是一个变化中的目标。因此,虽然容量这一因素是非常重要的,而接下来的另外两个衡量指标也不容忽视。

种类是指许多不同的数据和文件类型,对于管理和更深入的分析数据是至关重要的。但不适合传统的关系数据库。这方面的例子包括各种声音和电影文件、图像、文档、地理定位数据、网络日志和文本字符串。

速度是有关数据的变化率,以及其必须如何快速的被使用,以创造真正的价值。传统技术,尤其不适合用于高速数据储存和使用。因此,采用新的方法是必要的。如果有问题的数据创建和聚合速度非常快,

就必须使用迅速的方式来揭示其相关的模式和问题。你发现问题的速度越快,就越有利于您从你大数据分析中获得更多的机会。

2、大数据指的是Hadoop

Hadoop 是Apache 为大数据工作的开源软件框架。其是来自于Google 的技术加上雅虎的理念和其他,并付诸实践得出的。但是,大数据是如此的多样,和复杂,其绝对不存在一套放之四海而皆准的万能的解决办法。虽然Hadoop 已经毫无疑问的获得了相当大的知名度,但其也仅仅只是适合大数据存储和管理的三种技术的其中之一。其他两个种技术上NoSQL 和大规模并行处理(MPP )数据存储。MPP 数据存储的例子包括EMC 的Greenplum 、IBM 公司的Netezza 和惠普的Vertica.

此外,Hadoop 是一个软件框架,这意味着它包括若干专门设计的组件,是专门设计来解决大规模分布式数据存储,分析和检索任务的。不是所有的Hadoop 组件都是必要的,对于一个大的数据解决方案,其中一些组件可取代其他技术,更好地配合用户的需求。一个例子是MapR 的Hadoop ,其中包括NFS 作为HDFS 的替代,并提供了一个完整的随机存取,读/写文件系统。

3、大数据意味着非结构化数据

“非结构化”这一术语是不准确的,其没有考虑到许多通常与大数据类型相关的不同的和微妙的结构。此外,大数据很可能在同一数据集有不同的数据类型,不包含相同的结构。

因此,大数据更好可能是被称为“多层结构”,因为它可以包含文本字符串、所有类型的文件、音频和视频文件、元数据、网页、电子邮件、社交媒体供稿、表格数据,等等。这些不同的数据类型一致的特点是不知道其数据架构或不知道在这些数据被捕获和存储时如何定义。相反,一个数据模型经常在数据被使用时进行应用。

4、大数据只是社会媒体内容和情感分析

简而言之,如果您的企业需要广泛地分析网络流量、IT 系统日志、客户的情绪,或任何其他类型的每一天所创建的数字纪录册上的阴影,大数据提供了一个办法做到这一点。即使大数据的早期开拓者,已成为最大的基于网络的社会化媒体公司:谷歌、雅虎、Facebook ,他们的服务所产生的数据,需要一种全新的解决方案,而不是分析社会媒体内容和访客情感分析。

现在,由于迅速增长的计算机电源(通常是基于云计算的)、开源软件(例如,Apache 的Hadoop 发行版),以及如果利用得当现代化对于数据可以产生经济价值的冲击,大数据源源不断地产生新的用途和应用。大数据带来了很多让人欣喜的成果,其中包含了一些令人深思的用途,这在今年年初曾经在“福布斯”上的相关文章中报道过。

5、NoSQL 意味着非结构化查询语言

NoSQL 意味着“不仅仅”是SQL ,因为这些类型的数据存储提供特定领域的访问和查询技术,除了SQL 或类似SQL 接口。NoSQL 这一类的技术,包括关键值存储、面向文档的数据库、图形数据库、大表结构和缓存数据存储。具体的本地存储的数据访问方法提供了一个丰富的、低延时的方法,通常是通过专有接口。SQL 访问具有熟悉许多工具并与之兼容的优势。虽然这通常是在一些底层系统解释查询本地的“语言”的延迟费用。

Hive :Hive 最早是由Facebook 设计的,是一个建立在Hadoop 基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop 文件中的数据集的工具。Hive 提供的是一种结构化数据的机制,它支持类似于传统RDBMS 中的SQL 语言来帮助那些熟悉SQL 的用户查询Hadoop 中的数据,该查询语言称为Hive QL。与此同时,那些传统的MapReduce 编程人员也可以在Mapper 或Reducer 中通过Hive QL查询数据。Hive 编译器会把Hive QL 编译成一组MapReduce 任务,从而方便MapReduce 编程人员进行Hadoop 应用的开发。

HBase :HBase 是一个分布式的、面向列的开源数据库,该技术来源于Google 的论文“Bigtable:一个结构化数据的分布式存储系统”。如同Bigtable 利用了Google 文件系统(Google File System)提供的分布式数据存储方式一样,HBase 在Hadoop 之上提供了类似于Bigtable 的能力。HBase 是Hadoop 项目的子项目。HBase 不同于一般的关系数据库,其一,HBase 是一个适合于存储非结构化数据的数据库; 其二,

HBase 是基于列而不是基于行的模式。HBase 和Bigtable 使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase 表示疏松的,用户可以给行定义各种不同的列。HBase 主要用于需要随机访问、实时读写的大数据(Big Data)。

Pig :Pig 是一个对大型数据集进行分析和评估的平台。Pig 最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig 的底层由一个编译器组成,它在运行的时候会产生一些MapReduce 程序序列,Pig 的语言层由一种叫做Pig Latin的正文型语言组成。


相关文章

  • 人教版九年义务教育小学数学教学大纲
  • 数学教学大纲 一.前言 数学是日常生活和进一步学习必不可少的基础和工具.掌握一定的数学基础知识和基本技能,是我国公民应当具备的文化素养之一. 小学数学是义务教育的一门重要学科.从小给学生打好数学的初步基础,发展思维能力,培养创新意识.实践能 ...查看


  • 计算工具的认识.算盘
  • 计算工具的认识及算盘的使用 教学目标: 1.简单了解不同时期人类发明的计算工具及其发展历史. 2.通过教学使学生认识各种计算工具,对算盘和计算器有一定的了解. 3.课前鼓励学生收集有关计算工具的各种信息,使学生对计算工具的发展有一个比较全面 ...查看


  • 一生活在信息时代
  • 一 生活在信息时代 教学目标: 1.什么是信息?什么是信息技术? 2.如何进行搜集信息,整理加工信息? 3.培养学生信息素质. 教学重点:如何进行加工整理信息. 课前小研究: 上网搜索"什么是信息"说一说你今天都接收到了 ...查看


  • 4上-01-1-1(计算器的认识与使用)
  • 计算器的认识与使用 [教学内容] <义务教育教科书(五·四学制)·数学(四年级上册)>2-4页. [教学目标] 1. 在具体的计算情境中让学生初步认识计算器,学会用计算器简单的.必要的计算. 2. 在实际计算和解决问题的过程中感 ...查看


  • 小学数学四年级上册教学设计--大数的认识
  • 小学四年级上册数学教学计划 一.班级分析: (一)学生情况分析: 对于刚刚升入四年级的学生来说,这一年是他们由低段学习步入高段学习的第一年,他们的思维已经开始由具体形象思维过渡到抽象思维,对周围事物的认识较以前上升了一个层次,已经会用归纳概 ...查看


  • 算盘的认识--阚兴小学
  • 学习目标: 知识与技能: 1.使学生简单了解计算工具的发展(结绳记事.算筹等) 2.向学生介绍我国的传统计算工具--算盘,及其计算方法. 过程与方法: 使学生经历认识和使用计算工具的过程,会使用计算器进行计算. 情感.态度和价值观: 1.培 ...查看


  • 认识计算机硬件
  • 认识计算机硬件 (一)概述 · 课名是<认识计算机硬件>,是福建教育出版社信息技术教材七年级上册第二单元第一节的内容: · 本篇课文所需课时为1课时,40分钟: ·在教材中这一节叫"认识计算机硬件":是对整个 ...查看


  • 2013最新版小学数学四年级上册教学设计--大数的认识
  • 大数的认识 目 录 ................. 2 <大数的认识>教学设计(第2课时) ................. 6 <大数的认识>教学设计(第3课时) ................ 10 &l ...查看


  • 三年级上学期数学教学计划,学科教学方案大全
  • 一.教材分析 本学期教材内容包括下面一些内容:万以内的加法和减法笔算,有余数的除法,多位数乘一位数,分数的初步认识,四边形,千米和吨的认识,时.分.秒,可能性,数学广角等. 二.指导思想 1.改进笔算教学的编排,体现计算教学改革的理念,重视 ...查看


  • 小学数学1-6年级各年级知识点
  • 人教版数学知识一(上) 1. 数一数 2. 比一比:"同样多"."多"."少"以及"长"."短"."高"."矮 ...查看


热门内容