费希尔判别法理论

费希尔判别

费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量x=(x1,x2,⋅⋅⋅xp)'的少数几个线性组合(称为费希尔判别函数或典型变量)y1=a1'x,y2=a2'x,⋅⋅⋅yr=ar'x(一般r明显小于p)来代替原始的p个变量x1,x2,⋅⋅⋅xp,以达到降维的目的,并根据这r个判别函数y1,y2,⋅⋅⋅yr对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。

在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反应组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。

图投影到某个方向再判别

如图所示,两个组的所有样品都测量了两个变量x1和x2,将所有(x1,x2)点画于直角坐标系上,一组的样品点用“×”表示,另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,如果两组的点都投影到直线z上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来,这样的降维把反应两组间差异的信息都给损失了,显然是不可取的。事实上,

最好的投影是投影

到直线y上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的直线上作判别分析。

我们现考虑在Rp中将k组的p维数据向量投影到某个具有最佳方向的a上,即投影到a上的点能最大限度地显现出各组之间的差异。

设来自组πi的p维观测值为xij,j=1,2,⋅⋅⋅,ni,i=1,2,⋅⋅⋅,k,将它们共同投影

'xij,到某一p维常数向量a上,得到的投影点可分别对应线性组合yij=a

j=1,2,⋅⋅⋅,ni,i=1,2,⋅⋅⋅,k。这样,所有的p维观测值就简化为一维观测值。下面我们用yi表示组πi中yij的均值,y表示所有组k组的yij的总均值,即

1yi=ni∑yj=1niij=a'xi

1kniy=∑∑yij=a'xi ni=1j=1

1式中n=∑ni,xi=nii=1

k1kxij,x=∑nixi。 ∑ni=1j=1ni对于任一用来投影的a,我们需要给出一个能反映组之间分离程度的度量。比较图中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者,原因就在于前者的组内变差要远小于后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,即∑1=∑2=⋅⋅⋅=∑k=∑。

图三组之间的分离程度

yij的组间平方和

SSTR=∑ni(yi-y)=∑ni(a'xi-a'x)2=a'Ha 2

i=1i=1kk

式中H=∑ni(xi-x)(xi-x)'为组间平方和及叉积和矩阵。yij的组内平方和

i=1k

SSE=∑∑ni(yij-yi)=∑∑(a'xij-a'xi)2=a'Ea 2

i=1j=1i=1j=1knikni

式中E=∑(ni-1)Si=∑∑(xij-xi)(xij-xi)'为组内平方和及叉积和矩阵。

i=1i=1j=1kkni

可用来度量yij的组之间分离程度的一个量是

∆(a)=SSTRa'Ha= SSEa'Ea

我们应选择这样的a,使得∆(a)达到最大。由于对任意非零常数c,用ca代替上式中的a,∆(a)将保持不变,故考虑对a加以约束。我们希望判别函数y=a'x具

'∑a有单位方差,即V(a'x)=a=1,但因∑未知,于是用其联合无偏估计

Sp=1E替代,所以a的约束条件实际应为a'Spa=1,即判别函数的联合样本n-k

方差为1。

有 设E-1H的全部非零特征值依次为λ1≥λ2≥⋅⋅⋅≥λs>0,这里s=rank(H),且

s≤min(k-1,p)(5.4.2)

(通常情况下上式等号成立),相应的特征向量依次记为t1,t2,⋅⋅⋅,ts(标准化为ti'Spti=1,i=1,2,⋅⋅⋅,s)。由(1.8.5)式知,当a1=t1时∆(a1)达到最大值λ1。所以,选择投影到t1上能使各组的投影点最大限度地分离,称y1=t1'x为费希尔第一线性判别函数,简称第一判别函数。在许多情况下(如组数k是大的,或者原始的数据向量维数p是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。这时,我们应考虑建立第二线性组合y2=a2'x,为使降维最具效率,应要求y2(在线性关系的意义上)不重复y1中的信息,即

Cov(y1,y2)=Cov(t1'x,a2'x)=t1'∑a2=0

用Sp代替未知的∑,于是我们在约束条件

t1'Spa2=0(或t1'Ea2=0)

(a2)(a2)下寻找a2,使得∆达到最大。按(1.8.6)式,当a2=t2时∆达到最大值λ2,

称y2=t2'x为第二判别函数。如还不够,可再建立第三判别函数y3,依次类推。一般地,我们要求第i个线性组合yi=ai'x不重复前i-1个判别函数中的信息,即

Cov(yj,yi)=Cov(tj'x,ai'x)=tj'∑ai=0,j=1,2,⋅⋅⋅,i-1

用Sp代替∑,上式变为

tj'Spai=0(或tj'Eai=0),j=1,2,⋅⋅⋅,i-1

(ai)我们希望在约束条件()下寻找ai,使得∆达到最大。由(1.8.6)式知,当ai=ti

(ai)时∆达到最大值λi,称yi=ti'x为第i判别函数,i=2,3,⋅⋅⋅,s。

附:1.85-1.86

设A是p阶对称矩阵,B是p阶正定矩阵,μ1≥μ2≥⋅⋅⋅≥μp是B-1A的p个特征值,相应的一组特征向量t1,t2,⋅⋅⋅,tp,满足ti'Btj=0,1≤i≠j≤p,则

(ⅰ) x'Ax=μ1 (当x=t1时达到)x≠0x'Bx 'xAxmin=μp (当x=tp时达到)x≠0x'Bxmax

(ⅱ) x'Ax=μi (当x=ti时达到),i=2,3,⋅⋅⋅,p x'Btk≠0x'Bxk=1,⋅⋅⋅,i-1maxx≠0

综上所述,费希尔判别函数具有这样一些特点:(1)各判别函数都具有单位(联合样本)方差;(2)各判别函数彼此之间不相关(确切地说,是彼此之间的联合样本协方差为零);(3)判别函数方向t1,t2,⋅⋅⋅,ts并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常并不严重。

依(5.4.2)式可知,组数k=2时只有一个判别函数,k=3时最多只有两个判别函数。这从直观上也不难理解,(不重合的)两个组重心(即组均值点)可在(一维)直线上有最大分离,(不在一直线上的)三个组重心也可在(二维)平面上有最大分开。一般地,由全部s维空间可最大限度地分离k个组重心。

∆(ti)=λi表明了第i判别函数yi对分离各组的贡献大小,yi在所有s个判别函数中的贡献率为

λi/∑λj

j=1s

而前r(≤s)个判别函数y1,y2,⋅⋅⋅,yr的累计贡献率为

∑λ/∑λ ii

i=1i=1rs

它表明了y1,y2,⋅⋅⋅,yr能代表y1,y2,⋅⋅⋅,ys进行判别的能力。在实际应用中,通常我们并不使用所有s个判别函数,除非s很小,因为费希尔判别法的基本思想就是

要降维。如果前r个判别函数的累计贡献率已达到了一个较高的比例(如75%~95%),则就采用这r个判别函数进行判别。

在确定了需使用的r个判别函数y1,y2,⋅⋅⋅,yr之后,可制定相应的判别规则。由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧式距离。我们采用距离判别法,依据(y1,y2,⋅⋅⋅,yr)值,判别新样品归属离它最近的那一组,即判别规则为

x∈πl,若∑(yj-lj)=min∑(yj-ij)2(5.4.6) 2

j=11≤i≤kj=1rr

1'jx其中ij=t,=iini∑xj=1niij,ij为第j判别函数在组πi的样本均值

i=(i1,i2,⋅⋅⋅,ir)'的平方欧式距离,i=1,2,⋅⋅⋅,k。(5.4.6)式也可表达为

x∈πl,若∑[t'j(x-l)]=min∑[t'j(x-i)]2 2

j=11≤i≤kj=1rr

如果只使用一个判别函数进行判别(即r=1),则(5.4.6)式可简化为

x∈πl,若y-l=miny-i(5.4.7) 1≤i≤k

式中y和i(i=1,2,⋅⋅⋅,k)分别是(5.4.6)式中的y1和i1(i=1,2,⋅⋅⋅,k)。

有时我们也使用中心化的费希尔判别函数,即

yi=ti'(x-),i=1,2,⋅⋅⋅,s 1kni式中∑∑xij为k个组的总均值,仍使用(5.4.6)式进行判别。 ni=1j=1

例5.4.1(有用结论)组数k=2时的费希尔判别。

由于

n11+n22 n1+n2

1-n2n(1-2),2-1(2-1) n1+n2n1+n2

故组间矩阵

H=n1(1-)(1-)'+n2(2-)(2-)

=n1n2(1-2)(1-2)' n1+n2

假设组内矩阵E是可逆的(必须有n1-n2-2≥p),则有ξ1.6一中的性质(2)知

E-1H=n1n2E-1(1-2)(1-2)' n1+n2

有唯一的非零特征值

λ=n1n2(1-2)'E-1(1-2) n1+n2

这是一个正数(因为E>0)。令a为相应的特征向量,它应满足

(H-λE)a=0

Ha=λEa

于是

n1n2nn(1-2)(1-2)'a=12(1-2)'E-1(1-2)Ea n1+n2n1+n2

-1易见,a=Sp(1-2)满足上述方程,这里Sp=1E为联合协方差矩阵。为n1+n2-2

此,费希尔判别函数为

-1y=(1-2)'Spx

按(5.4.7)式,判别规则为

⎧⎪x∈π1,若y-1≤y-2 ⎨⎪⎩x∈π2,若y-1>y-2

-1-1-1其中1=(1-2)'Sp注意到1-2=(1-2)'Sp1,2=(1-2)'Sp2。(1-2)>0,

12。因此,上述判别规则等价于

1⎧x∈π,若y≥(1+2)1⎪⎪2 ⎨⎪x∈π,若y

也可以表达为

1⎧-1'x∈π,若(-)S[x-(1-2)]≥0112p⎪⎪2 ⎨⎪x∈π,若(-)'S-1[x-1(-)]

此正为(5.2.6)式。

上例表明,对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别,对两个正态组也等价于协方差相等且先验概率和误判代价也均相同的贝叶斯判别。

当使用的判别函数个数r=2时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行判别或对来自各组样品的分离情况及结构进行观测评估。当r=3时,可利用SAS的交互式数据分析菜单系统,让样本中来自不同组的样品点呈现不同颜色(或不同形状)以区分各组,然后作(三维)旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如r=2时清楚。能够利用降维后生成的图形用目测法进行判别是费希尔判别的最重要应用,图中常常能清晰地展示出(通过计算未必能得到的)丰富的信息,如发现构成各组的结构、离群样品点和数据中的其他异常情况等。

附:回代判别

为考察上述判别准则是否优良,采用以训练样本为基础的回代估计法计算误

(i)(i)(i)Txα=(xαGnα=1,2,⋅⋅⋅,ni;1,⋅⋅⋅,xαp)ii判率。来自总体容量为的训练样本(其中,

i=1,2,⋅⋅⋅,k),以所有的训练样本作为新样本,依次代入建立的判别函数中,并且利用判别准则进行判别,该过程称为回判。用

为总体nij表示将属于总体Gi的样本误判Gi的个数,设总的误判个数为N,则误判率η的回代估计为

η=N n1+n2+⋅⋅⋅+nm

费希尔判别

费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量x=(x1,x2,⋅⋅⋅xp)'的少数几个线性组合(称为费希尔判别函数或典型变量)y1=a1'x,y2=a2'x,⋅⋅⋅yr=ar'x(一般r明显小于p)来代替原始的p个变量x1,x2,⋅⋅⋅xp,以达到降维的目的,并根据这r个判别函数y1,y2,⋅⋅⋅yr对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。

在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反应组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。

图投影到某个方向再判别

如图所示,两个组的所有样品都测量了两个变量x1和x2,将所有(x1,x2)点画于直角坐标系上,一组的样品点用“×”表示,另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,如果两组的点都投影到直线z上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来,这样的降维把反应两组间差异的信息都给损失了,显然是不可取的。事实上,

最好的投影是投影

到直线y上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的直线上作判别分析。

我们现考虑在Rp中将k组的p维数据向量投影到某个具有最佳方向的a上,即投影到a上的点能最大限度地显现出各组之间的差异。

设来自组πi的p维观测值为xij,j=1,2,⋅⋅⋅,ni,i=1,2,⋅⋅⋅,k,将它们共同投影

'xij,到某一p维常数向量a上,得到的投影点可分别对应线性组合yij=a

j=1,2,⋅⋅⋅,ni,i=1,2,⋅⋅⋅,k。这样,所有的p维观测值就简化为一维观测值。下面我们用yi表示组πi中yij的均值,y表示所有组k组的yij的总均值,即

1yi=ni∑yj=1niij=a'xi

1kniy=∑∑yij=a'xi ni=1j=1

1式中n=∑ni,xi=nii=1

k1kxij,x=∑nixi。 ∑ni=1j=1ni对于任一用来投影的a,我们需要给出一个能反映组之间分离程度的度量。比较图中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者,原因就在于前者的组内变差要远小于后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,即∑1=∑2=⋅⋅⋅=∑k=∑。

图三组之间的分离程度

yij的组间平方和

SSTR=∑ni(yi-y)=∑ni(a'xi-a'x)2=a'Ha 2

i=1i=1kk

式中H=∑ni(xi-x)(xi-x)'为组间平方和及叉积和矩阵。yij的组内平方和

i=1k

SSE=∑∑ni(yij-yi)=∑∑(a'xij-a'xi)2=a'Ea 2

i=1j=1i=1j=1knikni

式中E=∑(ni-1)Si=∑∑(xij-xi)(xij-xi)'为组内平方和及叉积和矩阵。

i=1i=1j=1kkni

可用来度量yij的组之间分离程度的一个量是

∆(a)=SSTRa'Ha= SSEa'Ea

我们应选择这样的a,使得∆(a)达到最大。由于对任意非零常数c,用ca代替上式中的a,∆(a)将保持不变,故考虑对a加以约束。我们希望判别函数y=a'x具

'∑a有单位方差,即V(a'x)=a=1,但因∑未知,于是用其联合无偏估计

Sp=1E替代,所以a的约束条件实际应为a'Spa=1,即判别函数的联合样本n-k

方差为1。

有 设E-1H的全部非零特征值依次为λ1≥λ2≥⋅⋅⋅≥λs>0,这里s=rank(H),且

s≤min(k-1,p)(5.4.2)

(通常情况下上式等号成立),相应的特征向量依次记为t1,t2,⋅⋅⋅,ts(标准化为ti'Spti=1,i=1,2,⋅⋅⋅,s)。由(1.8.5)式知,当a1=t1时∆(a1)达到最大值λ1。所以,选择投影到t1上能使各组的投影点最大限度地分离,称y1=t1'x为费希尔第一线性判别函数,简称第一判别函数。在许多情况下(如组数k是大的,或者原始的数据向量维数p是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。这时,我们应考虑建立第二线性组合y2=a2'x,为使降维最具效率,应要求y2(在线性关系的意义上)不重复y1中的信息,即

Cov(y1,y2)=Cov(t1'x,a2'x)=t1'∑a2=0

用Sp代替未知的∑,于是我们在约束条件

t1'Spa2=0(或t1'Ea2=0)

(a2)(a2)下寻找a2,使得∆达到最大。按(1.8.6)式,当a2=t2时∆达到最大值λ2,

称y2=t2'x为第二判别函数。如还不够,可再建立第三判别函数y3,依次类推。一般地,我们要求第i个线性组合yi=ai'x不重复前i-1个判别函数中的信息,即

Cov(yj,yi)=Cov(tj'x,ai'x)=tj'∑ai=0,j=1,2,⋅⋅⋅,i-1

用Sp代替∑,上式变为

tj'Spai=0(或tj'Eai=0),j=1,2,⋅⋅⋅,i-1

(ai)我们希望在约束条件()下寻找ai,使得∆达到最大。由(1.8.6)式知,当ai=ti

(ai)时∆达到最大值λi,称yi=ti'x为第i判别函数,i=2,3,⋅⋅⋅,s。

附:1.85-1.86

设A是p阶对称矩阵,B是p阶正定矩阵,μ1≥μ2≥⋅⋅⋅≥μp是B-1A的p个特征值,相应的一组特征向量t1,t2,⋅⋅⋅,tp,满足ti'Btj=0,1≤i≠j≤p,则

(ⅰ) x'Ax=μ1 (当x=t1时达到)x≠0x'Bx 'xAxmin=μp (当x=tp时达到)x≠0x'Bxmax

(ⅱ) x'Ax=μi (当x=ti时达到),i=2,3,⋅⋅⋅,p x'Btk≠0x'Bxk=1,⋅⋅⋅,i-1maxx≠0

综上所述,费希尔判别函数具有这样一些特点:(1)各判别函数都具有单位(联合样本)方差;(2)各判别函数彼此之间不相关(确切地说,是彼此之间的联合样本协方差为零);(3)判别函数方向t1,t2,⋅⋅⋅,ts并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常并不严重。

依(5.4.2)式可知,组数k=2时只有一个判别函数,k=3时最多只有两个判别函数。这从直观上也不难理解,(不重合的)两个组重心(即组均值点)可在(一维)直线上有最大分离,(不在一直线上的)三个组重心也可在(二维)平面上有最大分开。一般地,由全部s维空间可最大限度地分离k个组重心。

∆(ti)=λi表明了第i判别函数yi对分离各组的贡献大小,yi在所有s个判别函数中的贡献率为

λi/∑λj

j=1s

而前r(≤s)个判别函数y1,y2,⋅⋅⋅,yr的累计贡献率为

∑λ/∑λ ii

i=1i=1rs

它表明了y1,y2,⋅⋅⋅,yr能代表y1,y2,⋅⋅⋅,ys进行判别的能力。在实际应用中,通常我们并不使用所有s个判别函数,除非s很小,因为费希尔判别法的基本思想就是

要降维。如果前r个判别函数的累计贡献率已达到了一个较高的比例(如75%~95%),则就采用这r个判别函数进行判别。

在确定了需使用的r个判别函数y1,y2,⋅⋅⋅,yr之后,可制定相应的判别规则。由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧式距离。我们采用距离判别法,依据(y1,y2,⋅⋅⋅,yr)值,判别新样品归属离它最近的那一组,即判别规则为

x∈πl,若∑(yj-lj)=min∑(yj-ij)2(5.4.6) 2

j=11≤i≤kj=1rr

1'jx其中ij=t,=iini∑xj=1niij,ij为第j判别函数在组πi的样本均值

i=(i1,i2,⋅⋅⋅,ir)'的平方欧式距离,i=1,2,⋅⋅⋅,k。(5.4.6)式也可表达为

x∈πl,若∑[t'j(x-l)]=min∑[t'j(x-i)]2 2

j=11≤i≤kj=1rr

如果只使用一个判别函数进行判别(即r=1),则(5.4.6)式可简化为

x∈πl,若y-l=miny-i(5.4.7) 1≤i≤k

式中y和i(i=1,2,⋅⋅⋅,k)分别是(5.4.6)式中的y1和i1(i=1,2,⋅⋅⋅,k)。

有时我们也使用中心化的费希尔判别函数,即

yi=ti'(x-),i=1,2,⋅⋅⋅,s 1kni式中∑∑xij为k个组的总均值,仍使用(5.4.6)式进行判别。 ni=1j=1

例5.4.1(有用结论)组数k=2时的费希尔判别。

由于

n11+n22 n1+n2

1-n2n(1-2),2-1(2-1) n1+n2n1+n2

故组间矩阵

H=n1(1-)(1-)'+n2(2-)(2-)

=n1n2(1-2)(1-2)' n1+n2

假设组内矩阵E是可逆的(必须有n1-n2-2≥p),则有ξ1.6一中的性质(2)知

E-1H=n1n2E-1(1-2)(1-2)' n1+n2

有唯一的非零特征值

λ=n1n2(1-2)'E-1(1-2) n1+n2

这是一个正数(因为E>0)。令a为相应的特征向量,它应满足

(H-λE)a=0

Ha=λEa

于是

n1n2nn(1-2)(1-2)'a=12(1-2)'E-1(1-2)Ea n1+n2n1+n2

-1易见,a=Sp(1-2)满足上述方程,这里Sp=1E为联合协方差矩阵。为n1+n2-2

此,费希尔判别函数为

-1y=(1-2)'Spx

按(5.4.7)式,判别规则为

⎧⎪x∈π1,若y-1≤y-2 ⎨⎪⎩x∈π2,若y-1>y-2

-1-1-1其中1=(1-2)'Sp注意到1-2=(1-2)'Sp1,2=(1-2)'Sp2。(1-2)>0,

12。因此,上述判别规则等价于

1⎧x∈π,若y≥(1+2)1⎪⎪2 ⎨⎪x∈π,若y

也可以表达为

1⎧-1'x∈π,若(-)S[x-(1-2)]≥0112p⎪⎪2 ⎨⎪x∈π,若(-)'S-1[x-1(-)]

此正为(5.2.6)式。

上例表明,对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别,对两个正态组也等价于协方差相等且先验概率和误判代价也均相同的贝叶斯判别。

当使用的判别函数个数r=2时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行判别或对来自各组样品的分离情况及结构进行观测评估。当r=3时,可利用SAS的交互式数据分析菜单系统,让样本中来自不同组的样品点呈现不同颜色(或不同形状)以区分各组,然后作(三维)旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如r=2时清楚。能够利用降维后生成的图形用目测法进行判别是费希尔判别的最重要应用,图中常常能清晰地展示出(通过计算未必能得到的)丰富的信息,如发现构成各组的结构、离群样品点和数据中的其他异常情况等。

附:回代判别

为考察上述判别准则是否优良,采用以训练样本为基础的回代估计法计算误

(i)(i)(i)Txα=(xαGnα=1,2,⋅⋅⋅,ni;1,⋅⋅⋅,xαp)ii判率。来自总体容量为的训练样本(其中,

i=1,2,⋅⋅⋅,k),以所有的训练样本作为新样本,依次代入建立的判别函数中,并且利用判别准则进行判别,该过程称为回判。用

为总体nij表示将属于总体Gi的样本误判Gi的个数,设总的误判个数为N,则误判率η的回代估计为

η=N n1+n2+⋅⋅⋅+nm


相关文章

  • 实验五 费希尔判别
  • 实验五 费希尔判别 学号:2013104874 姓名:孙影莉 班级:统计学131 一.实验目的 1.掌握如何使用SAS软件来进行判别分析: 2.看懂和理解SAS输出的结果,并学会以此来作出分析: 3.掌握如何对实际数据进行判别分析. 二.实 ...查看


  • 应用多元统计分析课后答案_朱建平版 1
  • 第二章 多元正态分布 的参数估计 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,概率分布,其 ...查看


  • 应用多元统计分析课后答案_朱建平版
  • 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,度函数是一个p维的函数,而边际分布讨论是函数的维数小于p. 2.2设二维随机向量(X1 X(X1,X2,Xp)的联合分布密 X ...查看


  • 应用多元统计分析课后答案_朱建平版(前9章)
  • 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,概率分布,其概率密度函数的维数小于p. ...查看


  • 海岸动力学考试复习大纲
  • 海岸动力学考试复习大纲 一.考试类型:闭卷 二.考试题型 包括 1.名词解释 2.证明或推导题 3.问答题 4.计算题 三.复习考试时间 十七.十八周 四.期末考试所占分数 (60%) 五.考试范围 1.名词解释 小振幅波理论 深水波及浅水 ...查看


  • 希尔伯特23个问题
  • 希尔伯特23个问题及解决情况 1900年希尔伯特应邀参加巴黎国际数学家大会并在会上作了题为<数学问题>重要演讲.在这具有历史意义的演讲中,首先他提出许多重要的思想: 正如人类的每一项事业都追求着确定的目标一样,数学研究也需要自己 ...查看


  • 上市公司成长性评价分析
  • 摘 要:企业的可持续成长是公司管理者.投资者等利益相关者共同关心的问题,也是企业未来价值之所在.成长性作为衡量企业价值的指标之一,日益成为理论界关注的焦点.因此,对其进行研究具有一定的现实意义和理论意义. 关键词:上市公司;成长性;评价 中 ...查看


  • 关于欧洲标准盘
  • 关于欧洲标准盘,俗称欧赔.目前很多朋友注重于解析什么是欧赔?欧赔的本质是什么?它代表或者反馈着什么信息?说实话,这个话题太深邃,象一座山太高太大,无法一时判别其为金山.银山或是良玉顽石.砖头自知愚钝,只能以愚公移山的精神.以简单易懂的手法一 ...查看


  • 费希特和中国近代知识分子的共性
  • 费希特和中国近代知识分子的共性――从胡适论费希特说起. 费希特和康德: 德国人约翰.戈特利布.费希特(Johann Gottlieb Fichte,1762-1814)在康德的影响下,走上了哲学研究的道路.1791年,费希特因其书稿< ...查看


热门内容