非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学

非参数统计检验方法的应用

1 1 2

阮曙芬程娇翼张振中

(1. 中国地质大学数理学院,武汉 430074;2. 中南大学数学科学与计算学院,长沙 410075)

摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用

Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验

1引言

非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。

2非参数假设检验介绍

2.1 配对样本的符号检验

符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。

设随机变量X 1, X 2,..., X n 相互独立同分布,分布为F (x ) ,F (x ) 在x =0连续。假设检验问题

2.2 两独立样本的Wilcoxon 秩和检验

Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为X 1, X 2,..., X n ,相互独立同分布,分布为F (x ) ;另一个样本为Y 1, Y 2,..., Y n ,相互独立同分布,分布为G (x ) ,F (x ) ,

G (x ) 连续。问随机变量Y 是否随机大于随机变量X ,即检验

H 0:F (x ) ≡G (x ) ,H 1:F (x ) ≥G (x ) ,且有某些点不等号成立。

将X 1, X 2,..., X n ,Y 1, Y 2,..., Y n 共m +n 个随机变量一起排序,产生对应的秩

R =(Q 1,..., Q m ; R 1,..., R n ) 。则Wilcoxon 秩和检验统计量为:W =∑R i 即Y 1, Y 2,..., Y n 在混合样

i =1

n

本中的秩的和为Wilcoxon 秩和检验统计量。 2.3多样本的Kruskal-Wallis 检验

Kruskal-Wallis 检验一般对多个总体的分布情况进行检验。其理论基础为:假设有m 种处理,对于第j 个检验体实行第i 种处理产生的效果记为x ij ,其分布函数为F i (x ) 。即

H 0:F 1(x ) =F 2(x ) =... =F n (x ) ;H 1:存在i 和i ' ,F i (x ) ≠F i ' (x ) 。

设观测值为{x ij , i =1, 2,..., m ; j =1, 2,..., n }。全体样本数为N ,x ij 的顺位记为r

ij 。假定

检验方法为:k >k N →拒绝H 0, k ≤k N →不拒绝H 0。

22

(m -1) ,k N =χα(m -1) 为自由度为m -1的χ2k 近似服从自由度为m -1的χ2分布。因此χα

分布的右侧的

α分位数点。

3 Kruskal-Wallis检验的应用

股市的周末效应是指周一的收益率比其他交易日收益率低,且风险较大;周五的收益率

比其他交易日高,且相对风险较小。下面分别对2002年的前三季度的上证综合指数进行周末效应的分析。

本实证分析中,样本为2002年1月4日到2002年9月27日的上海股市综合指数(数据来源于http://stock.sina.com.cn/stock/company/sh000001/20031012.html)。指数收益率的计算公3.1收益率分布状况的分析

首先计算收益率序列的方差,均值,偏度和峰度初步判断该序列是否服从正态分布。然后利用Kolmogorov-Smirnov 等检验结果对收益率进行正态性检验。 [SAS程序]

创建数据集:将excel 数据导入SAS 中,然后在分析家中利用数据计算得到: r0=p/lag1(p)和r=log(r0);

data sasuser.chx1 sasuser.chx2 sasuser.chx3 sasuser.chx4 sasuser.chx5; set sasuser.ch01; select (w);

when (1) output sasuser.chx1; when (2) output sasuser.chx2; when (3) output sasuser.chx3; when (4) output sasuser.chx4; when (5) output sasuser.chx5; end ; run ;

proc univariate data =sasuser.ch01; var r; run ;

[SAS结果输出]见表1汇总

偏度和峰度分别为0和3,所以我们可以初步断定指数收益率序列为非正态分布。为了进一步

图1 上证综合指数收益率分布的直方图

图2 上证综合指数收益率分布的概率图

包括Kolmogorov-Smirnov 检验统计量在内的四种检验正态分布的检验统计量均表明上海综合指数收益率序列不服从正态分布,图1和图2也说明了这一点。所以要采用非参数方法进行以后的周末效应的检验。

3.2周末效应存在性的Kruskal-Wallis 检验

我们利用Kruskal-Wallis 检验2002年前三季度上证综合指数收益率的周末效应的存在性。

[SAS程序]

proc npar1way wilcoxon data =sasuser.ch01; class w; var r; run ;

[SAS结果输出]

-------------------------------------------------------------------------

T he NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable r

Classified by Variable w

w N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 5 33 2576.0 2805.0 252.150749 78.060606

1 34 2610.0 2890.0 255.000000 76.764706 2 34 3206.0 2890.0 255.000000 94.294118 3 34 2996.0 2890.0 255.000000 88.117647 4 34 2977.0 2890.0 255.000000 87.558824

Kruskal-Wallis Test Chi-Square 3.0846 DF 4 Pr > Chi-Square 0.5438

------------------------------------------------------------------------- K-W 检验得χ=3.086,df =4,p =0.5348>0.05,所以不能拒绝H 0, 即周一到周五得上证综合指数收益率得分布F 1(x ) =F 2(x ) =... =F 5(x ) ,所以我们认为在2002年的前三季度中,上海市股市综合指数收益率不存在周末效应。

2

参考文献:

[1] Damodar N. Gujarati. Basic Econometrics. 北京:中国人民大学出版社,2005. p791-p800. [2] George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel. Time Series Analysis

Forecasting And Control.

[3] 何书元. 应用时间序列分析. 北京:北京大学出版社, 2003. p218-p226. [4] 张卓. SAS软件的应用. 统计与信息论坛(2005),Vol.20, No.4. p104-p106. [5] 樊欣,邵谦谦.SAS 8.X 经济统计. 北京:北京希望电子出版社,2003. p28-p60.

[6] 岳朝龙,黄永兴,严钟. SAS 系统与经济统计分析. 合肥:中国科学技术大学出版社, 2004. p469-p487 [7] 李彦萍. 发达与非发达地区收入与消费非参数统计分析. 山西农业大学学报(2005),Vol.4, No.4.

p334-p339.

[8] 刘彤. 利用非参数方法对上海股市周末效应的研究. 数理统计与管理(2003),Vol.22,No.1.

p69-p71.

Application of Nonparametric statistical Method

RUAN Shu-fen,CHENG Jiao-yi,ZHANG Zhen-zhong

(School of Mathematics and Physics, China University of Geosciences, Wuhan 430074) Abstract: In this paper, we simply introduce three common hypothesis tests. Using the Kruskal- -Wallis test, we do week effect test about the shanghai synthetic index of which we take the first three quarters of 2002 for samples. Showing that during the year of 2002, the yield of shanghai stock market synthetic index has no week effect.

Keywords: singed test; wilcoxon rank sum test; Krtuskal-wallis test.

论文投稿领域:数理经济与计量经济学

非参数统计检验方法的应用

1 1 2

阮曙芬程娇翼张振中

(1. 中国地质大学数理学院,武汉 430074;2. 中南大学数学科学与计算学院,长沙 410075)

摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用

Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验

1引言

非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。

2非参数假设检验介绍

2.1 配对样本的符号检验

符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。

设随机变量X 1, X 2,..., X n 相互独立同分布,分布为F (x ) ,F (x ) 在x =0连续。假设检验问题

2.2 两独立样本的Wilcoxon 秩和检验

Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为X 1, X 2,..., X n ,相互独立同分布,分布为F (x ) ;另一个样本为Y 1, Y 2,..., Y n ,相互独立同分布,分布为G (x ) ,F (x ) ,

G (x ) 连续。问随机变量Y 是否随机大于随机变量X ,即检验

H 0:F (x ) ≡G (x ) ,H 1:F (x ) ≥G (x ) ,且有某些点不等号成立。

将X 1, X 2,..., X n ,Y 1, Y 2,..., Y n 共m +n 个随机变量一起排序,产生对应的秩

R =(Q 1,..., Q m ; R 1,..., R n ) 。则Wilcoxon 秩和检验统计量为:W =∑R i 即Y 1, Y 2,..., Y n 在混合样

i =1

n

本中的秩的和为Wilcoxon 秩和检验统计量。 2.3多样本的Kruskal-Wallis 检验

Kruskal-Wallis 检验一般对多个总体的分布情况进行检验。其理论基础为:假设有m 种处理,对于第j 个检验体实行第i 种处理产生的效果记为x ij ,其分布函数为F i (x ) 。即

H 0:F 1(x ) =F 2(x ) =... =F n (x ) ;H 1:存在i 和i ' ,F i (x ) ≠F i ' (x ) 。

设观测值为{x ij , i =1, 2,..., m ; j =1, 2,..., n }。全体样本数为N ,x ij 的顺位记为r

ij 。假定

检验方法为:k >k N →拒绝H 0, k ≤k N →不拒绝H 0。

22

(m -1) ,k N =χα(m -1) 为自由度为m -1的χ2k 近似服从自由度为m -1的χ2分布。因此χα

分布的右侧的

α分位数点。

3 Kruskal-Wallis检验的应用

股市的周末效应是指周一的收益率比其他交易日收益率低,且风险较大;周五的收益率

比其他交易日高,且相对风险较小。下面分别对2002年的前三季度的上证综合指数进行周末效应的分析。

本实证分析中,样本为2002年1月4日到2002年9月27日的上海股市综合指数(数据来源于http://stock.sina.com.cn/stock/company/sh000001/20031012.html)。指数收益率的计算公3.1收益率分布状况的分析

首先计算收益率序列的方差,均值,偏度和峰度初步判断该序列是否服从正态分布。然后利用Kolmogorov-Smirnov 等检验结果对收益率进行正态性检验。 [SAS程序]

创建数据集:将excel 数据导入SAS 中,然后在分析家中利用数据计算得到: r0=p/lag1(p)和r=log(r0);

data sasuser.chx1 sasuser.chx2 sasuser.chx3 sasuser.chx4 sasuser.chx5; set sasuser.ch01; select (w);

when (1) output sasuser.chx1; when (2) output sasuser.chx2; when (3) output sasuser.chx3; when (4) output sasuser.chx4; when (5) output sasuser.chx5; end ; run ;

proc univariate data =sasuser.ch01; var r; run ;

[SAS结果输出]见表1汇总

偏度和峰度分别为0和3,所以我们可以初步断定指数收益率序列为非正态分布。为了进一步

图1 上证综合指数收益率分布的直方图

图2 上证综合指数收益率分布的概率图

包括Kolmogorov-Smirnov 检验统计量在内的四种检验正态分布的检验统计量均表明上海综合指数收益率序列不服从正态分布,图1和图2也说明了这一点。所以要采用非参数方法进行以后的周末效应的检验。

3.2周末效应存在性的Kruskal-Wallis 检验

我们利用Kruskal-Wallis 检验2002年前三季度上证综合指数收益率的周末效应的存在性。

[SAS程序]

proc npar1way wilcoxon data =sasuser.ch01; class w; var r; run ;

[SAS结果输出]

-------------------------------------------------------------------------

T he NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable r

Classified by Variable w

w N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 5 33 2576.0 2805.0 252.150749 78.060606

1 34 2610.0 2890.0 255.000000 76.764706 2 34 3206.0 2890.0 255.000000 94.294118 3 34 2996.0 2890.0 255.000000 88.117647 4 34 2977.0 2890.0 255.000000 87.558824

Kruskal-Wallis Test Chi-Square 3.0846 DF 4 Pr > Chi-Square 0.5438

------------------------------------------------------------------------- K-W 检验得χ=3.086,df =4,p =0.5348>0.05,所以不能拒绝H 0, 即周一到周五得上证综合指数收益率得分布F 1(x ) =F 2(x ) =... =F 5(x ) ,所以我们认为在2002年的前三季度中,上海市股市综合指数收益率不存在周末效应。

2

参考文献:

[1] Damodar N. Gujarati. Basic Econometrics. 北京:中国人民大学出版社,2005. p791-p800. [2] George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel. Time Series Analysis

Forecasting And Control.

[3] 何书元. 应用时间序列分析. 北京:北京大学出版社, 2003. p218-p226. [4] 张卓. SAS软件的应用. 统计与信息论坛(2005),Vol.20, No.4. p104-p106. [5] 樊欣,邵谦谦.SAS 8.X 经济统计. 北京:北京希望电子出版社,2003. p28-p60.

[6] 岳朝龙,黄永兴,严钟. SAS 系统与经济统计分析. 合肥:中国科学技术大学出版社, 2004. p469-p487 [7] 李彦萍. 发达与非发达地区收入与消费非参数统计分析. 山西农业大学学报(2005),Vol.4, No.4.

p334-p339.

[8] 刘彤. 利用非参数方法对上海股市周末效应的研究. 数理统计与管理(2003),Vol.22,No.1.

p69-p71.

Application of Nonparametric statistical Method

RUAN Shu-fen,CHENG Jiao-yi,ZHANG Zhen-zhong

(School of Mathematics and Physics, China University of Geosciences, Wuhan 430074) Abstract: In this paper, we simply introduce three common hypothesis tests. Using the Kruskal- -Wallis test, we do week effect test about the shanghai synthetic index of which we take the first three quarters of 2002 for samples. Showing that during the year of 2002, the yield of shanghai stock market synthetic index has no week effect.

Keywords: singed test; wilcoxon rank sum test; Krtuskal-wallis test.


相关文章

  • 非参数统计论文
  • 非参数统计论文 题目姓名班级学号 非参数统计的运用 梁增聪 107010202 11 非参数统计的应用 摘要:本文主论述了非参数估计的符合检验.秩检验的理解与运用,以及游程 检验在人口估计中的运用. 关键字:符号检验 游程检验 非参数估计 ...查看


  • 医学统计学_总结_重点_笔记_复习资料
  • 第一章 2选1 总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合.可分为有限总体和无限总体.总体中的所有单位都能够标识者为有限总体,反之为无限总体. 总体population根据 ...查看


  • 假设检验在经济分析中的应用
  • 摘 要 假设检验是抽样推断中的一项重要内容.在实际应用的很多时候,我们并不能知道总体的详细情况,而是通过对从总体中抽取的样本的研究来对总体做出判断.这就需要我们先做出假设,然后根据一定的检验方法和概率原则对假设做出判断,得出总体的情况. 运 ...查看


  • 计量经济学
  • 一元性回归模型的古典假设:1)假定SLR.1:参数线性假定(2)假定SLR.2:随机抽样假定(独立同分布假定)(3)假定SLR.3:随机项零条件均值假定(解释变量外生性假定).(线性的和无偏的)(4)假定SLR.4:条件同方差性假定.在假定 ...查看


  • 教育统计学大纲
  • 高纲1428 江苏省高等教育自学考试大纲 28063 教育统计学 南京师范大学编 江苏省高等教育自学考试委员会办公室 Ⅰ 课程的性质与设置目的 <教育统计学>是研究如何整理.分析在包括教育实验.教育调查等教育研究中所获取的数字资 ...查看


  • 医学文献检索
  • <医学统计学> 1. 课程管理 <医学统计学(一)>是苏州大学5年制护理专业的专业基础必修课,学时数为36学时,包括27节专业基础课和9级实验课.主要内容包括:绪论.医学科研设计(实验设计和调查设计).数值变量资料和 ...查看


  • 医学统计学总结 1
  • 1. 同一资料的标准差是否一定小于均数? 答:均数是描述定量资料集中趋势的指标,而标准差是描述定量资料离散程度的指标,二者反映的是资料分布特征的两个不同方面. 2. 极差.四分位间距.标准差.变异系数的适用范围有何异同? 答:这四个指标的相 ...查看


  • 卡方检验法在检验学生成绩中的应用
  • 巢湖学院2013届本科毕业论文(设计) χ检验法在检验学生成绩中的应用 2 摘 要 在对学生成绩分析时,采用数理统计中的χ2检验法可以方便有效地得出相关数据.以某初中全体学生的数学成绩为总体,采用卡方拟合检验法来检验初三学生的数学成绩近似的 ...查看


  • 医学统计学笔记12
  • 医学统计学笔记 统计学:是收集.分析.解释与阐述数据资料的一门科学.通过收集.分类.分析来处理数据变化的科学与艺术,获得可信结果. 医学统计学:将概率论和数理统计的原理和方法应用于医疗卫生实践和医学科研,研究其数据的搜集.整理与分析的一门科 ...查看


热门内容