大数据知识

一、搜索“大数据”关键词，查阅有关“大数据”相关资料，写一篇有关“大数据”的认识及其应用的报告。

1、大数据概念：

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

2、大数据简介：

“大数据”作为时下最火热的IT 行业的词汇，随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过，大约从2009年开始，“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。此外，数据又并非单纯指人们在互联网上发布的信息，全世界的工业设备、汽车、电表上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，也产生了海量的数据信息。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。且中国物联网校企联盟认为，物联网的发展离不开大数据，依靠大数据可以提供足够有利的资源。

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作。

3、大数据的领域：

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。

大数据的4个“V”，或者说特点有四个层面：

第一，数据体量巨大。从TB 级别，跃升到PB 级别。

第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低，商业价值高。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。

业界将其归纳为4个“V”——Volume ，Variety ，Value ，Velocity 。

4、大数据技术：

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP ）数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据技术分为整体技术和关键技术两个方面。

（1）整体技术数据采集：ETL 工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL 、SQL 等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，NaturalLanguageProcessing) 是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机" 理解" 自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding) ，也称为计算语言学(Computational Linguistics 。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T 检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic 回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap 技术等等。

数据挖掘：分类（Classification ）、估计（Estimation ）、预测（Prediction ）、相关性分组或关联规则（Affinity grouping or association rules ）、聚类（Clustering ）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

（2）关键技术

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。

大数据采集技术：数据是指通过RFID 射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化（或称之为弱结构化）及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术；突破高速数据解析、转换与装载等大数据整合技术；设计质量评估模型，开发数据质量技术。

大数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

大数据预处理技术：主要完成对已接收数据的辨析、抽取、清洗等操作。

1）抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助

我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

2）清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的

内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

大数据存储及管理技术：大数据存储与管理要用存储器把采集到的数据存储起

来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统（DFS ）、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术；突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术；突破大数据索引技术；突破大数据移动、备份、复制等技术；开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL 数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL 数据库。

开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术；突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

大数据分析及挖掘技术：大数据分析技术。改进已有数据挖掘和机器学习技术；

开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web ；根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为:归纳学习方法(决策树、规则归纳等) 、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等) 、判别分析(贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析(系统聚类、动态聚类等) 、探索性分析(主元分析法、相关分析法等) 等。神经网络方法中，可细分为:前向神经网络(BP算法等) 、自组织神经网络(自组织特征映射、竞争学习等) 等。数据库方法主要是多维数据分析或OLAP 方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度，着重突破：1. 可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。2. 数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。3. 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。4. 语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5. 数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量

的分析结果。

大数据展现与应用技术：大数据技术能够将隐藏于海量数据中的信息和知识挖掘

出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统（道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统），大规模基因序列分析比对技术，Web 信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

5、大数据的换算关系

大数据的最小基本单位是Byte ，按顺序给出所有单位：bit 、Byte 、KB 、MB 、GB 、TB 、PB 、EB 、ZB 、YB 、NB 、DB ，

它们按照进率1024（2的十次方）来计算：

1 Byte = 8 bit 1 KB = 1,024 Bytes

1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 NB = 1,024 YB = 1,048,576 ZB 1 DB = 1,024 NB = 1,048,576 YB

6、大数据的应用：

网络日志，RFID ，传感器网络，社会网络，社会数据（由于数据革命的社会），互联网文本和文件; 互联网搜索索引; 呼叫详细记录，天文学，大气科学，基因组学，生物地球化学，生物，和其他复杂和/或跨学科的科研，军事侦察，医疗记录; 摄影档案馆视频档案; 和大规模的电子商务。

7、大数据的应用案例分析：

（1）PDI 是一家领先的医疗商业化公司，Informatica Cloud 加强了该公司的销售、客户报告、洞察力和合规性。

Informatica 通过确保交付及时和相关的信息，帮助PDI 取得高额数据回报，同时减少了企业的应用程序、数据和 CRM 备份成本，更在不到一个月的时间就部署完毕。

解决方案将PDI 的Salesforce .com CRM 数据复制到基于云的报表系统中，使数据完整且保持最新，完成报表周期所用的时间只是以前所需时间的零头。可以每周、每日甚至实时生成报告，而从前则是30天的周期。

数据集成和CRM 备份成本也大幅降低，同时PDI 销售团队可以共享他们的业绩视图，跟踪生物医药销售指标和其他促进销售的信息。

PDI 的首席信息官Jo AnnSaitta 表示：“离了 Informatica Cloud ，PDI 的销售团队就会抓瞎。这种灵活易用、基于 SaaS 的集成服务正帮助公司实现数据的巨大回报，推动本来向下的销售上行，最终提高IT 利润。”

新西兰最大的金融机构 Westpac Life 将Informatica 部署在其雄心勃勃的保险项目中，这个项目是一个商业智能环境，帮助金融机构增加收入、留住更多客户、增加交叉销售的潜在

客户并降低风险。

系统提供了一个可信业务和保险客户数据的单一来源，有望交出240 %以上的投资回报，保单的生命周期收入提高至少一个百分点。

Informatica 还助力Westpac 的社交媒体项目，利用客户所说的话，从而将客户放在Westpac 活动的前沿和中心。

超过120 万客户每月进行三百万的在线交易，庞大的数据集带来了复杂的挑战。但是通过部署Informatica 平台，避免了在孤岛上作出决策。可基于具有高级报告和可视化的全盘信息，在保密情况下通过强大数据治理作出战略决策。

Westpac Life 新西兰有限公司的保险负责人KevinCrowley 说：“在财务不确定性的环境中，更快作出决策所需的财务效率和业务洞察是 Westpac 已经解决的挑战。因为有 Informatica ，我们有更好的定位，对更大透明度的需求作出响应，并将公司的客户保险数据资产转化为业务洞察力。”

实现最大回报

Informatica 深知，对于很多企业来说，向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点，同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica 可提供数据集成平台和领导力，为企业提供全程帮助。

（2）、15IBM 战略，IBM 的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”，指的是在“掌握信息”（Align ）的基础上“获取洞察”（Anticipate ），进而采取行动（Act ），优化决策策划能够救业务绩效。除此之外，还需要不断地“学习”（Learn ）从每一次业务结果中获得反馈，改善基于信息的决策流程，从而实现“转型”（Transform ）。

基于“3A5步”动态路线图，IBM 提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop 系统、流计算（StreamComputing ）、数据仓库（Data Warehouse）和信息整合与治理（Information Integration and Governance）。如下图所示。

在大数据处理领域，IBM 于2012年10月推出了IBMPureSystems 专家集成系统的新成员——IBM PureData 系统。这是IBM 在数据处理领域发布的首个集成系统产品系列。PureData 系统具体包含三款产品，分别为PureDataSystem for Transactions、PureData System forAnalytics 和PureData System for Operational Analytics，可分别应用于OLTP （联机事务处理）、OLAP （联机分析处理）和大数据分析操作。与此前发布的IBMPureSystems 系列产品一样，IBM PureData系统提供内置的专业知识、源于设计的集成，以及在其整个生命周期中的简化体验。

（3）、大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

8、大数据在国内的应用环境：

国内的企业跟美国比较，有一个很重要的特性就是人口基数的区别，中国消费群体所产生的，我们需要的是以数据为中心的SOA 还是以SOA 为中心的数据？

SOA 编程模型

答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据

层次结构。在越来越多的虚拟资源中，将这些模型之间所有类型的数据进行最优拟合是SOA 所面临的巨大挑战之一。本文详细介绍了每个SOA 模型管理数据的优点、选择和选项。

SOA 的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS 数据存取的模型描述了数据是如何提供给SOA 组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA 数据存储器上的。最后，架构模型描述了数据、数据管理服务和SOA 组件之间的关系。

SOA 和数据企业的例子

也许以极限情况为开始是理解SOA 数据问题的最好方式：一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA 组件（查询即服务，或QaaS ）上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS 服务模型不是机械地连接到存储器上；而是通过一个单一的架构—— RDBMS （关系型数据库管理系统）。数据去重和完整性便于管理单一的架构。

通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事，由于数据有多个来源和形式因此很少按序存储，并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA 的应用程序中时，关键是要定义三种模型中的最后一种模型，SOA 数据关系中的架构模型。有两种选择：水平方向和垂直方向。

SOA 和各类数据模型

在水平集成数据模型中，数据收集隐蔽于一套抽象的数据服务器，该服务器有一个或多个接口连接到应用程序上，也提供所有的完整性和数据管理功能。组件虽不能直接访问数据，但作为一种即服务形式，就像他们在简单情况下的企业，其数据的要求是纯粹的RDBMS 模型。应用程序组件基本上脱离了RDBMS 与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS 查询模型，但是它至少复制了我们上面提到的简单的RDBMS 模型。垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上，该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离，这种分离直接涉及到数据基础设施。在某些情况下，这些应用程序或许有可以直接访问存储/数据服务的SOA 组件。为了提供更多统一的数据完整性和管理，管理服务器可以作为SOA 组件来操作各种数据库系统，以数据库特定的方式执行常见的任务，如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA 即服务原则，也可能产生数据管理的一致性问题。

SOA 和水平数据模型

毫无疑问水平模型更符合SOA 原则，因为它更彻底地从SOA 组件中抽象出了数据服务。不过，为了使其有效，有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA 架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

水平的SOA 数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce ，可以应用于Hadoop 形式的云构架。Hadoop 以及类似的方法可以分发、管理和访问数据，然后集中查询这一分布式信息的相关结果。实际上，SOA 组件应将MapReduce 和类似数据分析功能作为一种查询功能应用。

上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘，而是一组相互连接的高速缓存点，其存储于本地内存中，也可能转向固态硬盘，然后到本地磁盘，最后到云存储。缓存算法处理这些缓存点之间的活动，从而来平衡存储成本（同时也是平衡同步地更新成本）和性能。

对于大数据，它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据，但是如果汇总数据最后一分钟还存储在内存中，最后一小时存储在闪存中，最后一天存在磁盘上，那么控制应用程序所需的实际时间可以通过快速访问资源得到满足, 然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

SOA 都是抽象的，但当抽象隐藏了底层影响性能和响应时间的复杂性时，这种抽象的危险程度会提高。数据访问也是这样的，因此,SOA 架构师需要认真地考虑抽象与性能之间的平衡关系，并为其特定的业务需求优化它。

9、大数据对我们生活的影响：

“大数据”的影响，增加了对信息管理专家的需求，甲骨文，IBM ，微软和SAP 花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元，增长近10%，每年两次，这大概是作为一个整体的软件业务的快速。

大数据已经出现，因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上，人们比以往任何时候都与数据或信息交互。 1990年至2005年，全球超过1亿人进入中产阶级，这意味着越来越多的人，谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计，到2013年，在互联网上流动的交通量将达到每年667艾字节。

大数据，其影响除了经济方面的，它同时也能在政治、文化等方面产生深远的影响，大数据可以帮助人们开启循“数”管理的模式，也是我们当下“大社会”的集中体现，三分技术，七分数据，得数据者得天下。