数据挖掘数据预处理

XI`AN TECHNOLOGICAL UNIVERSITY

实验报告

西安工业大学实验报告

一实验目的

掌握数据集成、变换、归约和离散化

二实验分析

从初始数据源出发, 总结了目前数据预处理的常规流程方法, 提出应把源数据的获取作为数据预处理的一个步骤, 并且创新性地把数据融合的方法引入到数据预处理的过程中, 提出了数据的循环预处理模式, 为提高数据质量提供了更好的分析方法, 保证了预测结果的质量, 为进一步研究挖掘提供了较好的参考模式。

三实验步骤

1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储（如数据仓库）中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。

2数据变换是指将数据转换或统一成适合于挖掘的形式。

（1）数据泛化：使用概念分层，用高层概念替换低层或“原始”数据。例如，分类的属性，如街道，可以泛化为较高层的概念，如城市或国家。类似地，数值属性如年龄，可以映射到较高层概念如青年、中年和老年。

（2）规范化：将属性数据按比例缩放，使之落入一个小的特定区间。大致可分三种：最小最大规范化、z-score 规范化和按小数定标规范化。

（3）属性构造：可以构造新的属性并添加到属性集中，以帮助挖掘过程。例如，可能希望根据属性height 和width 添加属性area 。通过属性构造可以发现关于数据属性间联系的丢失信息，这对知识发现是有用的。

3数据经过去噪处理后, 需根据相关要求对数据的属性进行相应处理. 数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性, 获得比原始数据小得

多的数据。

4数据离散化就是一种数据变换形式。主要有①光滑②属性构造③聚集④规范化⑤离散化⑥有标称数据产生概念分层。

一、卡方检验

对于标称数据，两个属性A 和B 之间的相关联系可以通过χ2（卡方）检验发现。假设A 有c 个不同值a1，a2，…，ac ，B 有r 个不同值b1，b2，…，br 。用A 和B 描述的数据元组可以用一个相依表显示，其中A 的c 个值构成列，B 的r 个值构成行。令(Ai，Bj) 表示属性A 取值ai 、属性B 取值bj 的联合事件，即(A=ai，B=bj)。每个可能的(Ai，Bj) 联合事件都在表中有自己的单元。χ2值（又称Pearson χ2统计量）可以用下式计算：

x =∑∑2

i =1j =1c r (o ij -e ij ) 2e ij

其中，oij 是联合事件(Ai，Bj) 的观测频度（即实际计数），而eij 是(Ai，Bj) 的期望频度，可以用下式计算：

e ij =count (A =a i ) ⨯count (B =b j )

其中，n 是数据元组的个数，count(A=ai)是A 上具有值ai 的元组个数，而count(B=bj)是B 上具有值bj 的元组个数。式中的和在所有r ×c 个单元上计算。注意，对χ2值贡献最大的单元是其实际计数与期望计数很不相同的单元。

χ2统计检验假设A 和B 是独立的。检验基于显著水平，具有自由度(r-1）×(c-1)。我如果可以拒绝该假设，则我们说A 和B 是统计相关的。

二、最小-最大规范化。假设属性income 的最小值和最大值分别为12000美元和98000美元。把income 映射到区间[0.0,0.1].根据最小最大规范化，income 值73600美元将转变为

三、Z 分数规范化。假设属性income 的均值和标准差分别为54000美元和16000美元. 使用Z 分数规范化，值73600美元被转换为

73600-54000=1. 225 1600073600-120001. 0-0）+0=0. 716。 98000-12000

四、小波变换

离散小波变换是一种线信号处理技术，用于数据向量X 时，将它变换成不同的数值小波系数向量x ' 。两个向量具有相同的长度。当这种技术用于数据规约时，每个元组看做一个n 维数据向量，即X=（x 1, x 2, x n ), 描述n 个数据库属性在元组上的n 个测量值。

五、直方图

等宽度直方图

对数据进行分箱。假设按等宽度的方法进行分箱（宽度w=1），则对于N 个数据，按其值v i 分别放入到相应的箱中，箱子的数目k=N MAX 。设每个箱中的统计数据为 c i (i=1,2...)，按照坐标值/频率对（c i v i ）表示在二维坐标上，则可以得到该组数据的单桶直方图. 其中，∑C i =n 。

一般情况下，为了进一步压缩数据，通常进行数据分箱时，每一个桶代表的是连续的属性值，即取宽度w=q(0

i -q ⋅(j -1) ∑c ，其中q ⋅j j=1,2...k,令c i =0, N MAX

率对(q(j-1)~qj/c j ) ，j=1,2...,k的宽度为q 的直方图，即为常见的等宽度直方图。

实验心得

预处理后, 若挖掘结果显示和实际差异较大, 在排除源数据的问题后则有必要需要考虑数据的二次预处理, 以修正初次数据预处理中引入的误差或方法的不当, 若二次挖掘结果仍然异常则需要另行斟酌。