数据挖掘第4次实验
一、目的:
1.熟悉并掌握常用的数据挖掘工具;
2.学会运用数据挖掘知识完成具体实例。
二、实验内容:
1.熟练掌握以下几种常用的数据挖掘工具:
(1)R http://www.r-project.org
R 是用于统计分析和图形化的计算机语言及分析工具,其核心计算模块是用C 、C++和Fortran 编写的。同时,R 提供了一种脚本语言,即R 语言。R 语言和贝尔实验室开发的S 语言类似。R 支持一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)上可以找到众多开源的扩展包。
(2)Tanagra
Tanagra 是使用图形界面的数据挖掘软件,采用了类似Windows 资源管理器中的树状结构来组织分析组件。Tanagra 缺乏高级的可视化能力,但它的强项是统计分析,提供了众多的有参和无参检验方法,同时它的特征选取方法也很多。
(3)Weka http://www.cs.waikato.ac.nz/ml/weka/
Weka 可能是名气最大的开源机器学习和数据挖掘软件。和R 相比,Weka 在统计分析方面较弱,但在机器学习方面要强得多。在Weka 论坛(http://weka.sourceforge.net/wiki/index.php/Related_Projects)可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka 的分析功能。
(4)YALE http://rapid-i.com
YALE 提供了图形化界面,采用了类似Windows 资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator )。YALE 中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE 是用Java 开发的,基于Weka 来构建,也就是说它可以调用Weka 中的各种分析组件。
(5)KNIME
KNIME 是基于Eclipse 开发环境来精心开发的数据挖掘工具。和YALE 一样,KNIME 也是用Java 开发的,可以扩展使用Weka 中的挖掘算法。和YALE 不同点的是,KNIME 采用的是类似数据流(data flow )的方式来建立分析挖掘流程。
(6)Orange Orange 是类似KNIME 和Weka KnowledgeFlow 的数据挖掘工具。Orange 的好处是使用更简单一些,但缺点是控制能力要比KNIME 弱。Orange 的弱项在于传统统计分析
能力不强,不支持统计检验,报表能力也有限。Orange 的底层核心也是采用C++编写,同时允许用户使用Python 脚本语言来进行扩展开发(参见
http://www.scipy.org) 。
(7)GGobi http://www.ggobi.org
GGobi 是用于交互式可视化的开源软件,它使用brushing 的方法。GGobi 可以用作R 软件的插件,或者通过Perl 、Python 等脚本语言来调用。
2.下载指定的气候监测数据集:
3.完成气象数据挖掘分析,具体内容如下:
在大量气象资料和数据中,建立描述复杂非线性天气系统的模型,分析隐藏在数据背后的气象知识和规律,对未来气象因素进行预测,并提供决策支持。
(1)数据准备及预处理;
(2)输入数据集;
(3)选择算法;
(4)构建挖掘模型;
(5)输出结果;
(6)结果比较分析。
其中,该模型中的关键技术如下:
(1)分类预测
对离散值的预测,如是否降雨、是否降霜、台风等级、暴雨等级。常用的方法有
决策树、分类统计、神经网络、粗糙集、SVM 分类算法;
●对连续值的预测,如降雨量预测、温度预测等。常用的实现手段是回归分析、神
经网络等。
(2)关联分析
考虑气象数据的时空特性和数据因素的多维性,对气象数据的关联规则挖掘要从两个个方面进行处理:
●
●一是要降低频繁集产生的个数,指定属性进行关联分析;二是要考虑同一数据属性在不同时间和不同地点的关联关系。
数据挖掘第4次实验
一、目的:
1.熟悉并掌握常用的数据挖掘工具;
2.学会运用数据挖掘知识完成具体实例。
二、实验内容:
1.熟练掌握以下几种常用的数据挖掘工具:
(1)R http://www.r-project.org
R 是用于统计分析和图形化的计算机语言及分析工具,其核心计算模块是用C 、C++和Fortran 编写的。同时,R 提供了一种脚本语言,即R 语言。R 语言和贝尔实验室开发的S 语言类似。R 支持一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)上可以找到众多开源的扩展包。
(2)Tanagra
Tanagra 是使用图形界面的数据挖掘软件,采用了类似Windows 资源管理器中的树状结构来组织分析组件。Tanagra 缺乏高级的可视化能力,但它的强项是统计分析,提供了众多的有参和无参检验方法,同时它的特征选取方法也很多。
(3)Weka http://www.cs.waikato.ac.nz/ml/weka/
Weka 可能是名气最大的开源机器学习和数据挖掘软件。和R 相比,Weka 在统计分析方面较弱,但在机器学习方面要强得多。在Weka 论坛(http://weka.sourceforge.net/wiki/index.php/Related_Projects)可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka 的分析功能。
(4)YALE http://rapid-i.com
YALE 提供了图形化界面,采用了类似Windows 资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator )。YALE 中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE 是用Java 开发的,基于Weka 来构建,也就是说它可以调用Weka 中的各种分析组件。
(5)KNIME
KNIME 是基于Eclipse 开发环境来精心开发的数据挖掘工具。和YALE 一样,KNIME 也是用Java 开发的,可以扩展使用Weka 中的挖掘算法。和YALE 不同点的是,KNIME 采用的是类似数据流(data flow )的方式来建立分析挖掘流程。
(6)Orange Orange 是类似KNIME 和Weka KnowledgeFlow 的数据挖掘工具。Orange 的好处是使用更简单一些,但缺点是控制能力要比KNIME 弱。Orange 的弱项在于传统统计分析
能力不强,不支持统计检验,报表能力也有限。Orange 的底层核心也是采用C++编写,同时允许用户使用Python 脚本语言来进行扩展开发(参见
http://www.scipy.org) 。
(7)GGobi http://www.ggobi.org
GGobi 是用于交互式可视化的开源软件,它使用brushing 的方法。GGobi 可以用作R 软件的插件,或者通过Perl 、Python 等脚本语言来调用。
2.下载指定的气候监测数据集:
3.完成气象数据挖掘分析,具体内容如下:
在大量气象资料和数据中,建立描述复杂非线性天气系统的模型,分析隐藏在数据背后的气象知识和规律,对未来气象因素进行预测,并提供决策支持。
(1)数据准备及预处理;
(2)输入数据集;
(3)选择算法;
(4)构建挖掘模型;
(5)输出结果;
(6)结果比较分析。
其中,该模型中的关键技术如下:
(1)分类预测
对离散值的预测,如是否降雨、是否降霜、台风等级、暴雨等级。常用的方法有
决策树、分类统计、神经网络、粗糙集、SVM 分类算法;
●对连续值的预测,如降雨量预测、温度预测等。常用的实现手段是回归分析、神
经网络等。
(2)关联分析
考虑气象数据的时空特性和数据因素的多维性,对气象数据的关联规则挖掘要从两个个方面进行处理:
●
●一是要降低频繁集产生的个数,指定属性进行关联分析;二是要考虑同一数据属性在不同时间和不同地点的关联关系。