数据挖掘数据预处理

XI`AN TECHNOLOGICAL UNIVERSITY

实验报告

西安工业大学实验报告

一 实验目的

掌握数据集成、变换、归约和离散化

二 实验分析

从初始数据源出发, 总结了目前数据预处理的常规流程方法, 提出应把源数据的获取作为数据预处理的一个步骤, 并且创新性地把数据融合的方法引入到数据预处理的过程中, 提出了数据的循环预处理模式, 为提高数据质量提供了更好的分析方法, 保证了预测结果的质量, 为进一步研究挖掘提供了较好的参考模式。

三 实验步骤

1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。

2数据变换是指将数据转换或统一成适合于挖掘的形式。

(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。

(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score 规范化和按小数定标规范化。

(3)属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。例如,可能希望根据属性height 和width 添加属性area 。通过属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。

3数据经过去噪处理后, 需根据相关要求对数据的属性进行相应处理. 数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性, 获得比原始数据小得

多的数据。

4数据离散化就是一种数据变换形式。主要有①光滑②属性构造③聚集④规范化⑤离散化⑥有标称数据产生概念分层。

一、卡方检验

对于标称数据,两个属性A 和B 之间的相关联系可以通过χ2(卡方)检验发现。假设A 有c 个不同值a1,a2,…,ac ,B 有r 个不同值b1,b2,…,br 。用A 和B 描述的数据元组可以用一个相依表显示,其中A 的c 个值构成列,B 的r 个值构成行。令(Ai,Bj) 表示属性A 取值ai 、属性B 取值bj 的联合事件,即(A=ai,B=bj)。每个可能的(Ai,Bj) 联合事件都在表中有自己的单元。χ2值(又称Pearson χ2统计量)可以用下式计算:

x =∑∑2

i =1j =1c r (o ij -e ij ) 2e ij

其中,oij 是联合事件(Ai,Bj) 的观测频度(即实际计数),而eij 是(Ai,Bj) 的期望频度,可以用下式计算:

e ij =count (A =a i ) ⨯count (B =b j )

n

其中,n 是数据元组的个数,count(A=ai)是A 上具有值ai 的元组个数,而count(B=bj)是B 上具有值bj 的元组个数。式中的和在所有r ×c 个单元上计算。注意,对χ2值贡献最大的单元是其实际计数与期望计数很不相同的单元。

χ2统计检验假设A 和B 是独立的。检验基于显著水平,具有自由度(r-1)×(c-1)。我如果可以拒绝该假设,则我们说A 和B 是统计相关的。

二、最小-最大规范化。假设属性income 的最小值和最大值分别为12000美元和98000美元。把income 映射到区间[0.0,0.1].根据最小最大规范化,income 值73600美元将转变为

三、Z 分数规范化。假设属性income 的均值和标准差分别为54000美元和16000美元. 使用Z 分数规范化,值73600美元被转换为

73600-54000=1. 225 1600073600-120001. 0-0)+0=0. 716。 98000-12000

四、小波变换

离散小波变换是一种线信号处理技术,用于数据向量X 时,将它变换成不同的数值小波系数向量x ' 。两个向量具有相同的长度。当这种技术用于数据规约时,每个元组看做一个n 维数据向量,即X=(x 1, x 2, x n ), 描述n 个数据库属性在元组上的n 个测量值。

五、直方图

等宽度直方图

对数据进行分箱。假设按等宽度的方法进行分箱(宽度w=1),则对于N 个数据,按其值v i 分别放入到相应的箱中,箱子的数目k=N MAX 。设每个箱中的统计数据为 c i (i=1,2...),按照坐标值/频率对(c i v i )表示在二维坐标上,则可以得到该组数据的 单桶直方图. 其中,∑C i =n 。

一般情况下,为了进一步压缩数据,通常进行数据分箱时,每一个桶代表的是连续的属性值,即取宽度w=q(0

i -q ⋅(j -1) ∑c ,其中q ⋅j j=1,2...k,令c i =0, N MAX

率对(q(j-1)~qj/c j ) ,j=1,2...,k的宽度为q 的直方图,即为常见的等宽度直方图。

实验心得

预处理后, 若挖掘结果显示和实际差异较大, 在排除源数据的问题后则有必要需要考虑数据的二次预处理, 以修正初次数据预处理中引入的误差或方法的不当, 若二次挖掘结果仍然异常则需要另行斟酌。

XI`AN TECHNOLOGICAL UNIVERSITY

实验报告

西安工业大学实验报告

一 实验目的

掌握数据集成、变换、归约和离散化

二 实验分析

从初始数据源出发, 总结了目前数据预处理的常规流程方法, 提出应把源数据的获取作为数据预处理的一个步骤, 并且创新性地把数据融合的方法引入到数据预处理的过程中, 提出了数据的循环预处理模式, 为提高数据质量提供了更好的分析方法, 保证了预测结果的质量, 为进一步研究挖掘提供了较好的参考模式。

三 实验步骤

1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。

2数据变换是指将数据转换或统一成适合于挖掘的形式。

(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。

(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score 规范化和按小数定标规范化。

(3)属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。例如,可能希望根据属性height 和width 添加属性area 。通过属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。

3数据经过去噪处理后, 需根据相关要求对数据的属性进行相应处理. 数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性, 获得比原始数据小得

多的数据。

4数据离散化就是一种数据变换形式。主要有①光滑②属性构造③聚集④规范化⑤离散化⑥有标称数据产生概念分层。

一、卡方检验

对于标称数据,两个属性A 和B 之间的相关联系可以通过χ2(卡方)检验发现。假设A 有c 个不同值a1,a2,…,ac ,B 有r 个不同值b1,b2,…,br 。用A 和B 描述的数据元组可以用一个相依表显示,其中A 的c 个值构成列,B 的r 个值构成行。令(Ai,Bj) 表示属性A 取值ai 、属性B 取值bj 的联合事件,即(A=ai,B=bj)。每个可能的(Ai,Bj) 联合事件都在表中有自己的单元。χ2值(又称Pearson χ2统计量)可以用下式计算:

x =∑∑2

i =1j =1c r (o ij -e ij ) 2e ij

其中,oij 是联合事件(Ai,Bj) 的观测频度(即实际计数),而eij 是(Ai,Bj) 的期望频度,可以用下式计算:

e ij =count (A =a i ) ⨯count (B =b j )

n

其中,n 是数据元组的个数,count(A=ai)是A 上具有值ai 的元组个数,而count(B=bj)是B 上具有值bj 的元组个数。式中的和在所有r ×c 个单元上计算。注意,对χ2值贡献最大的单元是其实际计数与期望计数很不相同的单元。

χ2统计检验假设A 和B 是独立的。检验基于显著水平,具有自由度(r-1)×(c-1)。我如果可以拒绝该假设,则我们说A 和B 是统计相关的。

二、最小-最大规范化。假设属性income 的最小值和最大值分别为12000美元和98000美元。把income 映射到区间[0.0,0.1].根据最小最大规范化,income 值73600美元将转变为

三、Z 分数规范化。假设属性income 的均值和标准差分别为54000美元和16000美元. 使用Z 分数规范化,值73600美元被转换为

73600-54000=1. 225 1600073600-120001. 0-0)+0=0. 716。 98000-12000

四、小波变换

离散小波变换是一种线信号处理技术,用于数据向量X 时,将它变换成不同的数值小波系数向量x ' 。两个向量具有相同的长度。当这种技术用于数据规约时,每个元组看做一个n 维数据向量,即X=(x 1, x 2, x n ), 描述n 个数据库属性在元组上的n 个测量值。

五、直方图

等宽度直方图

对数据进行分箱。假设按等宽度的方法进行分箱(宽度w=1),则对于N 个数据,按其值v i 分别放入到相应的箱中,箱子的数目k=N MAX 。设每个箱中的统计数据为 c i (i=1,2...),按照坐标值/频率对(c i v i )表示在二维坐标上,则可以得到该组数据的 单桶直方图. 其中,∑C i =n 。

一般情况下,为了进一步压缩数据,通常进行数据分箱时,每一个桶代表的是连续的属性值,即取宽度w=q(0

i -q ⋅(j -1) ∑c ,其中q ⋅j j=1,2...k,令c i =0, N MAX

率对(q(j-1)~qj/c j ) ,j=1,2...,k的宽度为q 的直方图,即为常见的等宽度直方图。

实验心得

预处理后, 若挖掘结果显示和实际差异较大, 在排除源数据的问题后则有必要需要考虑数据的二次预处理, 以修正初次数据预处理中引入的误差或方法的不当, 若二次挖掘结果仍然异常则需要另行斟酌。


相关文章

  • 数据预处理
  • 数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理.如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算.另外,对于一些剖面测 ...查看


  • 大数据在计算机信息处理技术中的应用_张莉
  • 第13卷 第6期2014年12月淮北职业技术学院学报 JOURNALOFHUAIBEIPROFESSIONALANDTECHNICAOLLEGELC Vol.13No.6 Dec.2014 大数据在计算机信息处理技术中的应用 张 莉,汪 伟 ...查看


  • 大数据的概念.特征及其应用
  • 马建光等:大数据的概念.特征及其应用 (2013-09-05 16:15:35) 转载▼ 标签: 分类: 学习资料 杂谈 大数据的概念.特征及其应用 马建光,姜巍 (国防科技大学人文与社会科学学院,湖南长沙410074) 源自:国防科技20 ...查看


  • 物联网中的海量数据处理技术
  • 物联网中的海量数据处理技术 作者:胡海东 来源:<科技创新导报>2013年第03期 摘要:物联网近年来得到了迅速的发展.伴随着各种传感设备的使用,物联网所处理的数据量呈现出海量特征.如何对这些数据进行高效处理,从中获取有用信息, ...查看


  • 视频监控大数据的关键技术和应用
  • 视频监控的大数据趋势 视频监控从最早的模拟闭路监控系统开始,经历过模拟监控.数字监控.网络监控等重要发展阶段,如今进入了大数据的时代,并面临着一系列的挑战. 视频监控产生的数据正迅速增长 视频监控数据的增长有三个主要的因素.首先,视频监控不 ...查看


  • 校运动会管理系统的设计与实现
  • 校运动会管理系统的设计与实 现 目 录 第一章 系统概述 . .............................................................. 1 1.1 系统开发背景与意义 . ........ ...查看


  • 简析大数据及其处理分析流程
  • 昆明理工大学 空间数据库期末考察报告 <简析大数据及其处理分析流程> 学院:国土资源工程学院 班级:测绘121 姓名:王易豪 学号:[1**********]9 任课教师:李刚 简析大数据及其处理分析流程 [摘 要] 大数据的规 ...查看


  • 大数据技术的应用
  • 论 文 报 告 报告课程名称 统计学前沿专题 年 级 2011级 专 业 统计111 学生姓名 赵应国 学 号 1107010270 指导老师 胡 老 师 理 学 院 大数据技术 大数据技术,就是从各种类型的数据中快速获得有价值信息的技术. ...查看


  • 大数据知识
  • 一.搜索"大数据"关键词,查阅有关"大数据"相关资料,写一篇有关"大数据"的认识及其应用的报告. 1.大数据概念: 大数据(big data),或称巨量资料,指的是所涉及的资料量规 ...查看


热门内容