信息资源管理共词分析

我国近年来铁路的发展方向

——基于共词分析

1. 实验内容

改革开放以来,中国铁路发展取得了巨大成就。2005年中国内地铁路营业里程已经达到7.5万公里,其中复线里程2.5万公里,电气化线路2万公里。随着青藏铁路于2005年10月全线建成,今年7月通车运营,铁路将覆盖全国所有省市自治区。

2007年4月18日,中国第六次铁路大提速正式展开,CRH1、CRH2、CRH5动车组大规模上线运行,列车运行时速达200 km/h。

选择网络数据总库近一段时间,随着李克强总理出访各国,向各国推荐高铁,中国铁路受到世界瞩目。

本次实验具体内容包括: (1)文献资源检索。 (2)文献处理。 (3)文献挖掘。

(4)分析我国近年来天路发展方向。 (5)总结本实验研究、分析优缺点。

2. 文献获取与数据收集

本实验采用中国学术期刊网(CNKI )全文数据库并选择网络数据总库,时间是2008—2015年,指定来源为核心刊物,指定主题为“中国铁路发展”,共搜索到500篇文献信息,搜索过程如图1所示。

图1

将搜索到的文献数据以自定义的方式,选择“来源库”、“关键词”、“年”、“提名”、“摘要”、“作者”、“发表时间”、“单位”ISSN 项目输出,并导出Excel ,以便后续处理。原始数据如图2所示。

图2

3. 数据处理

1)文献数据初步处理

经初步筛选,见关键词缺乏、无作者、摘要内容无关、新闻报告以及其它在《萌芽》等杂志把标的文章全部剔除,并提出摘要,最终剩余359篇主要文献数据,再将数据进行合并汇总,最终汇总如图3所示。

图3

2)关键词处理 (1)关键词结构。

运用Excel 的数据分析功能——分列,见关键词进一步处理,处理结果如图4所示。

图4

(2)关键词筛选。

利用Excel 的统计功能将所有关键词进行词频统计,获得原始关键词2396个。选择词频不低于7的关键词,筛选出34个关键词作为高频词。其中,关键词“中国铁路发展”词频170次,为最高频次。但鉴于“中国铁路发展”与本研究内容完全重合,在共此分析中难以发挥作用,予以舍弃。关键词太多,工作量太大,因此得到高频关键词19个,如表1所示。

(3)关键词共词矩阵

由于表1中的这些关键词是有关中国铁路发展文献中出现频次较高的词,它们从较大程度上能代表中国当前中国铁路发展的研究热点。为了进一步了解这些词之间的联系,在建立的数据库中对表1中的高频关键词进行两两共词检索,统计它们在359篇文章中同时出现的频率,建立一个19*19的关键词矩阵。部分共词矩阵数据如图5所示。 共词矩阵位对称矩阵,主对角线的数据定义为缺失,非主对角线中单元格的数据为两个关键词共同出现的次数。

图5

(4)关键词相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,也为了消除频次悬殊造成的影响,将相关矩阵转化为相似矩阵。

共词矩阵转化为相似矩阵的具体方法是用Ochiia 系数转化成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的量的关键词总频次开房的成绩。

此时对角线上的数据表示该词自身的相似程度,经计算均为1, 。利用公式进行计算,得到的部分相似矩阵如图6所示。

图6

相似距震中的数字表明其对应两个关键词之际,数值越大表明关键词之间的距离越近,相似度越好;反之,数值越小表明关键词之间的距离越远,相似度越差。

(5)关键词相异矩阵

由于相思局真的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相依程度的相异矩阵,如图7所示。

相异矩阵中的数据表示不相似数据,数值越大表明关键词之间的距离越远,相似度越差;反之,数值越小表明关键词之间的距离越近,相似度越高。

图7

我国近年来铁路的发展方向

——基于共词分析

1. 实验内容

改革开放以来,中国铁路发展取得了巨大成就。2005年中国内地铁路营业里程已经达到7.5万公里,其中复线里程2.5万公里,电气化线路2万公里。随着青藏铁路于2005年10月全线建成,今年7月通车运营,铁路将覆盖全国所有省市自治区。

2007年4月18日,中国第六次铁路大提速正式展开,CRH1、CRH2、CRH5动车组大规模上线运行,列车运行时速达200 km/h。

选择网络数据总库近一段时间,随着李克强总理出访各国,向各国推荐高铁,中国铁路受到世界瞩目。

本次实验具体内容包括: (1)文献资源检索。 (2)文献处理。 (3)文献挖掘。

(4)分析我国近年来天路发展方向。 (5)总结本实验研究、分析优缺点。

2. 文献获取与数据收集

本实验采用中国学术期刊网(CNKI )全文数据库并选择网络数据总库,时间是2008—2015年,指定来源为核心刊物,指定主题为“中国铁路发展”,共搜索到500篇文献信息,搜索过程如图1所示。

图1

将搜索到的文献数据以自定义的方式,选择“来源库”、“关键词”、“年”、“提名”、“摘要”、“作者”、“发表时间”、“单位”ISSN 项目输出,并导出Excel ,以便后续处理。原始数据如图2所示。

图2

3. 数据处理

1)文献数据初步处理

经初步筛选,见关键词缺乏、无作者、摘要内容无关、新闻报告以及其它在《萌芽》等杂志把标的文章全部剔除,并提出摘要,最终剩余359篇主要文献数据,再将数据进行合并汇总,最终汇总如图3所示。

图3

2)关键词处理 (1)关键词结构。

运用Excel 的数据分析功能——分列,见关键词进一步处理,处理结果如图4所示。

图4

(2)关键词筛选。

利用Excel 的统计功能将所有关键词进行词频统计,获得原始关键词2396个。选择词频不低于7的关键词,筛选出34个关键词作为高频词。其中,关键词“中国铁路发展”词频170次,为最高频次。但鉴于“中国铁路发展”与本研究内容完全重合,在共此分析中难以发挥作用,予以舍弃。关键词太多,工作量太大,因此得到高频关键词19个,如表1所示。

(3)关键词共词矩阵

由于表1中的这些关键词是有关中国铁路发展文献中出现频次较高的词,它们从较大程度上能代表中国当前中国铁路发展的研究热点。为了进一步了解这些词之间的联系,在建立的数据库中对表1中的高频关键词进行两两共词检索,统计它们在359篇文章中同时出现的频率,建立一个19*19的关键词矩阵。部分共词矩阵数据如图5所示。 共词矩阵位对称矩阵,主对角线的数据定义为缺失,非主对角线中单元格的数据为两个关键词共同出现的次数。

图5

(4)关键词相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,也为了消除频次悬殊造成的影响,将相关矩阵转化为相似矩阵。

共词矩阵转化为相似矩阵的具体方法是用Ochiia 系数转化成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的量的关键词总频次开房的成绩。

此时对角线上的数据表示该词自身的相似程度,经计算均为1, 。利用公式进行计算,得到的部分相似矩阵如图6所示。

图6

相似距震中的数字表明其对应两个关键词之际,数值越大表明关键词之间的距离越近,相似度越好;反之,数值越小表明关键词之间的距离越远,相似度越差。

(5)关键词相异矩阵

由于相思局真的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相依程度的相异矩阵,如图7所示。

相异矩阵中的数据表示不相似数据,数值越大表明关键词之间的距离越远,相似度越差;反之,数值越小表明关键词之间的距离越近,相似度越高。

图7


相关文章

  • 信息化能力建设题库答案
  • 1.单选题 1.( )什么分析法是对具有复杂联系的社会经济现象进行数量分析的一种科学方法. A. 多指标综合分析法 B. 信息化综合指示法 C. 投入产出 D. 综合产业力度法 2.应设立( )部门产值,第二信息部门等指标 A. 第一信息 ...查看


  • 信息分析与决策总结
  • 决策要素 设定目标,决策总是为了达到一个既定的目标,没有目标就无从决策. •拟制方案,决策是要付诸实施的,不准备实施的决策是多余的决策. •比较选优,决策总是在若干个有价值的方案中进行选择,没有选择就没有优化. •评估应变,决策过程是动态的 ...查看


  • 远程继续教育
  • 1 <专业技术人员信息化能力建设(1)(2013 年公共课)>考前复习题库 一.单项选择题 01.信息化建设会改变人们的生活方式.工作方式.社会信息结构.( )等各个方法. A.信息建设 B.信息量 C.信息技术 D.信息人才 ...查看


  • 2013继续教育公共课题库
  • 一.单项选择题 01.信息化建设会改变人们的生活方式.工作方式.社会信息结构.( D )等各个方法. A. 信息建设 B. 信息量 C. 信息技术 D. 信息人才 02.信息化指数是反映(D )的总指标. A. 信息装备率 B. 通信主体水 ...查看


  • 信息管理系统专升本历年试题汇总
  • 信息管理系统专升本历年试题汇总 一.单项选择题 1.在管理信息系统的开发过程中,最重要的阶段是( A ). A.需求分析 B.系统设计 C.系统实施 D.运行维护 2.在系统评价报告中,不属于评价内容的是(C ). A.技术性能指标评价 B ...查看


  • 网络营销的客户信息管理方案
  • 网络营销的客户信息管理方案 日期:[ 2011-01-03 ]作者:网站管理员:来源: 在当前以"客户为中心"的营销时代,客户已经成为企业的核心资源,基于客户信息管理的网络营销方式亦成为市场营销的主流模式.本文通过分析网 ...查看


  • 德邦物流的仓储物流信息系统分析与设计
  • 物流信息系统设计课程设计任务书 学院名称:交通与汽车工程学院 课程代码:_1103181__ 专业: 物流管理 年级: 2010 一.设计题目 物流信息系统设计:德邦物流的仓储物流信息系统分析与设计 二.主要内容 分析设计具备一定功能的物流 ...查看


  • 信息安全市场竞争对手分析报告
  • 信息安全市场竞争对手分析报告(二零 一四年) 中国产业调研网 www.cir.cn 第1页 共 44 页 信息安全市场调查研究与信息安全竞争对手分析报告(2014 年) 行业市场研究是当前应用最为广泛的咨询服务, 一份专业的行业市场研究分析 ...查看


  • 卷烟市场信息采集实施办法
  • 关于对<青海省卷烟市场信息采集管理办法> (试行)征求意见的通知 各州地市烟草公司: 现将<青海省卷烟市场信息采集管理办法>(试行)发送给你们,请各单位在6月15日将本单位的意见和建议汇总后反馈到省局销售管理处. 联 ...查看


  • 浅谈医院财务分析报告的写作
  • 摘要:随着社会经济的快速发展和医疗改革的不断深化,医院财务分析在财务管理中的作用越来越重要.通过财务分析可以发现差距,了解医院经济状况,改变经营方式,因此医院财务分析报告有着现实意义.本文主要对医院财务分析报告写作进行了阐述. 关键词:医院 ...查看


热门内容