数据挖掘第4次实验

数据挖掘第4次实验

一、目的:

1.熟悉并掌握常用的数据挖掘工具;

2.学会运用数据挖掘知识完成具体实例。

二、实验内容:

1.熟练掌握以下几种常用的数据挖掘工具:

(1)R http://www.r-project.org

R 是用于统计分析和图形化的计算机语言及分析工具,其核心计算模块是用C 、C++和Fortran 编写的。同时,R 提供了一种脚本语言,即R 语言。R 语言和贝尔实验室开发的S 语言类似。R 支持一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)上可以找到众多开源的扩展包。

(2)Tanagra

Tanagra 是使用图形界面的数据挖掘软件,采用了类似Windows 资源管理器中的树状结构来组织分析组件。Tanagra 缺乏高级的可视化能力,但它的强项是统计分析,提供了众多的有参和无参检验方法,同时它的特征选取方法也很多。

(3)Weka http://www.cs.waikato.ac.nz/ml/weka/

Weka 可能是名气最大的开源机器学习和数据挖掘软件。和R 相比,Weka 在统计分析方面较弱,但在机器学习方面要强得多。在Weka 论坛(http://weka.sourceforge.net/wiki/index.php/Related_Projects)可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka 的分析功能。

(4)YALE http://rapid-i.com

YALE 提供了图形化界面,采用了类似Windows 资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator )。YALE 中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE 是用Java 开发的,基于Weka 来构建,也就是说它可以调用Weka 中的各种分析组件。

(5)KNIME

KNIME 是基于Eclipse 开发环境来精心开发的数据挖掘工具。和YALE 一样,KNIME 也是用Java 开发的,可以扩展使用Weka 中的挖掘算法。和YALE 不同点的是,KNIME 采用的是类似数据流(data flow )的方式来建立分析挖掘流程。

(6)Orange Orange 是类似KNIME 和Weka KnowledgeFlow 的数据挖掘工具。Orange 的好处是使用更简单一些,但缺点是控制能力要比KNIME 弱。Orange 的弱项在于传统统计分析

能力不强,不支持统计检验,报表能力也有限。Orange 的底层核心也是采用C++编写,同时允许用户使用Python 脚本语言来进行扩展开发(参见

http://www.scipy.org) 。

(7)GGobi http://www.ggobi.org

GGobi 是用于交互式可视化的开源软件,它使用brushing 的方法。GGobi 可以用作R 软件的插件,或者通过Perl 、Python 等脚本语言来调用。

2.下载指定的气候监测数据集:

3.完成气象数据挖掘分析,具体内容如下:

在大量气象资料和数据中,建立描述复杂非线性天气系统的模型,分析隐藏在数据背后的气象知识和规律,对未来气象因素进行预测,并提供决策支持。

(1)数据准备及预处理;

(2)输入数据集;

(3)选择算法;

(4)构建挖掘模型;

(5)输出结果;

(6)结果比较分析。

其中,该模型中的关键技术如下:

(1)分类预测

对离散值的预测,如是否降雨、是否降霜、台风等级、暴雨等级。常用的方法有

决策树、分类统计、神经网络、粗糙集、SVM 分类算法;

●对连续值的预测,如降雨量预测、温度预测等。常用的实现手段是回归分析、神

经网络等。

(2)关联分析

考虑气象数据的时空特性和数据因素的多维性,对气象数据的关联规则挖掘要从两个个方面进行处理:

●一是要降低频繁集产生的个数,指定属性进行关联分析;二是要考虑同一数据属性在不同时间和不同地点的关联关系。

数据挖掘第4次实验

一、目的:

1.熟悉并掌握常用的数据挖掘工具;

2.学会运用数据挖掘知识完成具体实例。

二、实验内容:

1.熟练掌握以下几种常用的数据挖掘工具:

(1)R http://www.r-project.org

R 是用于统计分析和图形化的计算机语言及分析工具,其核心计算模块是用C 、C++和Fortran 编写的。同时,R 提供了一种脚本语言,即R 语言。R 语言和贝尔实验室开发的S 语言类似。R 支持一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)上可以找到众多开源的扩展包。

(2)Tanagra

Tanagra 是使用图形界面的数据挖掘软件,采用了类似Windows 资源管理器中的树状结构来组织分析组件。Tanagra 缺乏高级的可视化能力,但它的强项是统计分析,提供了众多的有参和无参检验方法,同时它的特征选取方法也很多。

(3)Weka http://www.cs.waikato.ac.nz/ml/weka/

Weka 可能是名气最大的开源机器学习和数据挖掘软件。和R 相比,Weka 在统计分析方面较弱,但在机器学习方面要强得多。在Weka 论坛(http://weka.sourceforge.net/wiki/index.php/Related_Projects)可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka 的分析功能。

(4)YALE http://rapid-i.com

YALE 提供了图形化界面,采用了类似Windows 资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator )。YALE 中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE 是用Java 开发的,基于Weka 来构建,也就是说它可以调用Weka 中的各种分析组件。

(5)KNIME

KNIME 是基于Eclipse 开发环境来精心开发的数据挖掘工具。和YALE 一样,KNIME 也是用Java 开发的,可以扩展使用Weka 中的挖掘算法。和YALE 不同点的是,KNIME 采用的是类似数据流(data flow )的方式来建立分析挖掘流程。

(6)Orange Orange 是类似KNIME 和Weka KnowledgeFlow 的数据挖掘工具。Orange 的好处是使用更简单一些,但缺点是控制能力要比KNIME 弱。Orange 的弱项在于传统统计分析

能力不强,不支持统计检验,报表能力也有限。Orange 的底层核心也是采用C++编写,同时允许用户使用Python 脚本语言来进行扩展开发(参见

http://www.scipy.org) 。

(7)GGobi http://www.ggobi.org

GGobi 是用于交互式可视化的开源软件,它使用brushing 的方法。GGobi 可以用作R 软件的插件,或者通过Perl 、Python 等脚本语言来调用。

2.下载指定的气候监测数据集:

3.完成气象数据挖掘分析,具体内容如下:

在大量气象资料和数据中,建立描述复杂非线性天气系统的模型,分析隐藏在数据背后的气象知识和规律,对未来气象因素进行预测,并提供决策支持。

(1)数据准备及预处理;

(2)输入数据集;

(3)选择算法;

(4)构建挖掘模型;

(5)输出结果;

(6)结果比较分析。

其中,该模型中的关键技术如下:

(1)分类预测

对离散值的预测,如是否降雨、是否降霜、台风等级、暴雨等级。常用的方法有

决策树、分类统计、神经网络、粗糙集、SVM 分类算法;

●对连续值的预测,如降雨量预测、温度预测等。常用的实现手段是回归分析、神

经网络等。

(2)关联分析

考虑气象数据的时空特性和数据因素的多维性,对气象数据的关联规则挖掘要从两个个方面进行处理:

●一是要降低频繁集产生的个数,指定属性进行关联分析;二是要考虑同一数据属性在不同时间和不同地点的关联关系。


相关文章

  • 大学物理实验(二)论文总结
  • 大学物理实验数据处理及误差分析的研究 摘要:对在这一年的物理实验过程中用到的各种实验数据处理以及误差分析的方法进行总结. 关键词:数据处理,误差分析,不确定度 引言:1. 物理实验是解决有关物理问题的重要方法,解释物理实验过程中每个数据出现 ...查看


  • 高校实验室数据统计信息化管理研究.doc
  • 高校实验室数据统计信息化管理研究 作者:赵亚红 来源:<教育与职业·理论版>2008年第12期 [摘要]实验室信息统计在高校实验室建设中占有举足轻重的地位,是衡量高校管理水平的重要指标之一.文章通过对"高校实验室信息统 ...查看


  • 实验设计题答案
  • 实验设计题专题资料 实验设计题的关键方法及应考对策: 1.基本思路--"一连:二测:三变: 四仿照:五计算." 2.设计实验题步骤的表达--规范.完整.注意细则 3.具体叙述要表达出: (1)自变量:如何改变,取值个数. ...查看


  • SQL实验报告总结
  • <数据库系统概论(第四版)> 体 会 学号: 姓名: 班级: 教师: 学 期实 验 总 结 与 心 得 [实验名称] 数据库的创建 [实验内容] 1.新建sql注册表. 2.新建数据库.主数据文件:逻辑文件名为student_d ...查看


  • 数据库实验指导书
  • 数据库原理及应用 实验指导书 湖南工程学院计算机科学与通信学院 2011年9月 实验一 一. 实验目的: 掌握建立一个数据库表结构的方法和步骤 ,了解数据库表的基本组成. 二. 实验内容: 基本表的创建和修改. 三. 实验要求:(必做) 硬 ...查看


  • 天然药物化学设计性镐药剂09实验方案
  • 天然药物化学设计性实验方案 生命科学与工程学院药物制剂专业 任课教师:李楠 孔阳 天然药物化学是药学专业的一门专业基础课,它涉及到有机化学.中药药剂学.生药学.波谱学等多个学科的内容,是运用化学.生药学的原理和方法来研究天然植物药的有效化学 ...查看


  • 大学物理实验论文-完整版[1]-好[1]
  • 大学物理实验论文 标题:物理实验的感悟与体会 摘要:在本学期的实验课中,我感悟和体会很多,让我学到许多平时学习不到的大学.虽然在很多的物理实验中,我们只是在复现课堂上所学的理论知识原理与效果,但因为物理实验有着诸多不同的因素,要求我们必须端 ...查看


  • 塞曼效应实验数据分析与处理方法改进
  • 第30卷 2010年5月 第5期 物理实验 V01.30No.5 PHYSICSEXPERlMENTATION May,2010 塞曼效应实验数据分析与处理方法改进 杨 冰,丁 蔻,李丽华,董瑞新,闫循领 (聊城大学物理科学与信息工程学院, ...查看


  • TipDM大数据云服务实验室建设方案
  • TipDM 大数据云服务实验室建 设方案 广州泰迪智能科技有限公司 2016年4月 一.背景 1.1 大数据挖掘行业背景和发展趋势 移动互联网.电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长.根据 IDC <数字宇宙 ...查看


  • 统计学实验指导书
  • 实验指导书 (2012/2013学年第2学期) 课程名称 统计学 课程编号 010100102 课程性质 学科基础课 教学时数 10课时 教学对象 11国贸 授课教师 邵阳学院经济与管理系 2013年2月 实验一 数据的整理和显示 [实验课 ...查看


热门内容