费希尔判别法理论

费希尔判别

费希尔判别（或称典型判别）的基本思想是投影（或降维）：用p维向量x=(x1,x2,⋅⋅⋅xp)'的少数几个线性组合（称为费希尔判别函数或典型变量）y1=a1'x,y2=a2'x,⋅⋅⋅yr=ar'x（一般r明显小于p）来代替原始的p个变量x1,x2,⋅⋅⋅xp，以达到降维的目的，并根据这r个判别函数y1,y2,⋅⋅⋅yr对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效，并且可以对前三个判别函数作图，从直观的几何图像上区别各组。

在降维的过程中难免会有部分有用信息的损失，但只要使用的方法得当，我们可以最大限度地减少这种损失，从而保留尽可能多的有用信息，即关于能够反应组之间差异的信息。为便于理解，我们以下用一个简单的二维例子来加以说明。

图投影到某个方向再判别

如图所示，两个组的所有样品都测量了两个变量x1和x2，将所有（x1,x2）点画于直角坐标系上，一组的样品点用“×”表示，另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间，即一条直线上，然后再对两组进行判别，则投影到不同的直线上，判别的效果一般是不同的。从图中可见，如果两组的点都投影到直线z上则这两组的投影点在该直线上的分布几乎无任何差异，他们完全混合在一起，我们无法将这两组的点区别开来，这样的降维把反应两组间差异的信息都给损失了，显然是不可取的。事实上，

最好的投影是投影

到直线y上，因为它把两组的投影点很清楚地区分了开来，这种降维把有关两组差异的信息很好地保留了下来，几乎没有任何损失，如此就完全可以在一维的直线上作判别分析。

我们现考虑在Rp中将k组的p维数据向量投影到某个具有最佳方向的a上，即投影到a上的点能最大限度地显现出各组之间的差异。

设来自组πi的p维观测值为xij，j=1,2,⋅⋅⋅,ni，i=1,2,⋅⋅⋅,k，将它们共同投影

'xij，到某一p维常数向量a上，得到的投影点可分别对应线性组合yij=a

j=1,2,⋅⋅⋅,ni，i=1,2,⋅⋅⋅,k。这样，所有的p维观测值就简化为一维观测值。下面我们用yi表示组πi中yij的均值，y表示所有组k组的yij的总均值，即

1yi=ni∑yj=1niij=a'xi

1kniy=∑∑yij=a'xi ni=1j=1

1式中n=∑ni，xi=nii=1

k1kxij，x=∑nixi。 ∑ni=1j=1ni对于任一用来投影的a，我们需要给出一个能反映组之间分离程度的度量。比较图中的上、下半图，上半图三组均值之间的差异程度与下半图是相同的，而前者组之间的分离程度却明显高于后者，原因就在于前者的组内变差要远小于后者，后者组之间有较多重叠。因此，可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中，我们需假定各组的协方差矩阵相同，即∑1=∑2=⋅⋅⋅=∑k=∑。

图三组之间的分离程度

yij的组间平方和

SSTR=∑ni(yi-y)=∑ni(a'xi-a'x)2=a'Ha 2

i=1i=1kk

式中H=∑ni(xi-x)(xi-x)'为组间平方和及叉积和矩阵。yij的组内平方和

i=1k

SSE=∑∑ni(yij-yi)=∑∑(a'xij-a'xi)2=a'Ea 2

i=1j=1i=1j=1knikni

式中E=∑(ni-1)Si=∑∑(xij-xi)(xij-xi)'为组内平方和及叉积和矩阵。

i=1i=1j=1kkni

可用来度量yij的组之间分离程度的一个量是

∆(a)=SSTRa'Ha= SSEa'Ea

我们应选择这样的a，使得∆(a)达到最大。由于对任意非零常数c，用ca代替上式中的a，∆(a)将保持不变，故考虑对a加以约束。我们希望判别函数y=a'x具

'∑a有单位方差，即V(a'x)=a=1，但因∑未知，于是用其联合无偏估计

Sp=1E替代，所以a的约束条件实际应为a'Spa=1，即判别函数的联合样本n-k

方差为1。

有设E-1H的全部非零特征值依次为λ1≥λ2≥⋅⋅⋅≥λs>0，这里s=rank(H)，且

s≤min(k-1,p)（5.4.2）

（通常情况下上式等号成立），相应的特征向量依次记为t1,t2,⋅⋅⋅,ts（标准化为ti'Spti=1，i=1,2,⋅⋅⋅,s）。由（1.8.5）式知，当a1=t1时∆(a1)达到最大值λ1。所以，选择投影到t1上能使各组的投影点最大限度地分离，称y1=t1'x为费希尔第一线性判别函数，简称第一判别函数。在许多情况下（如组数k是大的，或者原始的数据向量维数p是大的），仅仅使用第一判别函数也许不够，因为仅在这一个投影方向上组之间的差异可能还不够清晰，各组未能很好地分开。这时，我们应考虑建立第二线性组合y2=a2'x，为使降维最具效率，应要求y2（在线性关系的意义上）不重复y1中的信息，即

Cov（y1,y2）=Cov（t1'x,a2'x）=t1'∑a2=0

用Sp代替未知的∑，于是我们在约束条件

t1'Spa2=0(或t1'Ea2=0)

（a2）（a2）下寻找a2，使得∆达到最大。按（1.8.6）式，当a2=t2时∆达到最大值λ2，

称y2=t2'x为第二判别函数。如还不够，可再建立第三判别函数y3，依次类推。一般地，我们要求第i个线性组合yi=ai'x不重复前i-1个判别函数中的信息，即

Cov（yj,yi）=Cov（tj'x,ai'x）=tj'∑ai=0，j=1,2,⋅⋅⋅,i-1

用Sp代替∑，上式变为

tj'Spai=0(或tj'Eai=0)，j=1,2,⋅⋅⋅,i-1

（ai）我们希望在约束条件（）下寻找ai，使得∆达到最大。由（1.8.6）式知，当ai=ti

（ai）时∆达到最大值λi，称yi=ti'x为第i判别函数，i=2,3,⋅⋅⋅,s。

附：1.85-1.86

设A是p阶对称矩阵，B是p阶正定矩阵，μ1≥μ2≥⋅⋅⋅≥μp是B-1A的p个特征值，相应的一组特征向量t1,t2,⋅⋅⋅,tp，满足ti'Btj=0，1≤i≠j≤p，则

（ⅰ） x'Ax=μ1 (当x=t1时达到)x≠0x'Bx 'xAxmin=μp (当x=tp时达到)x≠0x'Bxmax

（ⅱ） x'Ax=μi (当x=ti时达到)，i=2,3,⋅⋅⋅,p x'Btk≠0x'Bxk=1,⋅⋅⋅,i-1maxx≠0

综上所述，费希尔判别函数具有这样一些特点：（1）各判别函数都具有单位（联合样本）方差；（2）各判别函数彼此之间不相关（确切地说，是彼此之间的联合样本协方差为零）；（3）判别函数方向t1,t2,⋅⋅⋅,ts并不正交，但作图时仍将它们画成直角坐标系，虽有些变形，但通常并不严重。

依（5.4.2）式可知，组数k=2时只有一个判别函数，k=3时最多只有两个判别函数。这从直观上也不难理解，（不重合的）两个组重心（即组均值点）可在（一维）直线上有最大分离，（不在一直线上的）三个组重心也可在（二维）平面上有最大分开。一般地，由全部s维空间可最大限度地分离k个组重心。

∆(ti)=λi表明了第i判别函数yi对分离各组的贡献大小，yi在所有s个判别函数中的贡献率为

λi/∑λj

j=1s

而前r(≤s)个判别函数y1,y2,⋅⋅⋅,yr的累计贡献率为

∑λ/∑λ ii

i=1i=1rs

它表明了y1,y2,⋅⋅⋅,yr能代表y1,y2,⋅⋅⋅,ys进行判别的能力。在实际应用中，通常我们并不使用所有s个判别函数，除非s很小，因为费希尔判别法的基本思想就是

要降维。如果前r个判别函数的累计贡献率已达到了一个较高的比例（如75%~95%），则就采用这r个判别函数进行判别。

在确定了需使用的r个判别函数y1,y2,⋅⋅⋅,yr之后，可制定相应的判别规则。由于各判别函数都具有单位方差且彼此不相关，故此时的马氏距离等同于欧式距离。我们采用距离判别法，依据（y1,y2,⋅⋅⋅,yr）值，判别新样品归属离它最近的那一组，即判别规则为

x∈πl，若∑(yj-lj)=min∑(yj-ij)2（5.4.6） 2

j=11≤i≤kj=1rr

1'jx其中ij=t，=iini∑xj=1niij，ij为第j判别函数在组πi的样本均值

i=(i1,i2,⋅⋅⋅,ir)'的平方欧式距离，i=1,2,⋅⋅⋅,k。（5.4.6）式也可表达为

x∈πl，若∑[t'j(x-l)]=min∑[t'j(x-i)]2 2

j=11≤i≤kj=1rr

如果只使用一个判别函数进行判别（即r=1），则（5.4.6）式可简化为

x∈πl，若y-l=miny-i（5.4.7） 1≤i≤k

式中y和i(i=1,2,⋅⋅⋅,k)分别是（5.4.6）式中的y1和i1(i=1,2,⋅⋅⋅,k)。

有时我们也使用中心化的费希尔判别函数，即

yi=ti'(x-)，i=1,2,⋅⋅⋅,s 1kni式中∑∑xij为k个组的总均值，仍使用（5.4.6）式进行判别。 ni=1j=1

例5.4.1（有用结论）组数k=2时的费希尔判别。

由于

n11+n22 n1+n2

1-n2n(1-2)，2-1(2-1) n1+n2n1+n2

故组间矩阵

H=n1(1-)(1-)'+n2(2-)(2-)

=n1n2(1-2)(1-2)' n1+n2

假设组内矩阵E是可逆的（必须有n1-n2-2≥p），则有ξ1.6一中的性质（2）知

E-1H=n1n2E-1(1-2)(1-2)' n1+n2

有唯一的非零特征值

λ=n1n2(1-2)'E-1(1-2) n1+n2

这是一个正数（因为E>0）。令a为相应的特征向量，它应满足

(H-λE)a=0

即

Ha=λEa

于是

n1n2nn(1-2)(1-2)'a=12(1-2)'E-1(1-2)Ea n1+n2n1+n2

-1易见，a=Sp(1-2)满足上述方程，这里Sp=1E为联合协方差矩阵。为n1+n2-2

此，费希尔判别函数为

-1y=(1-2)'Spx

按（5.4.7）式，判别规则为

⎧⎪x∈π1，若y-1≤y-2 ⎨⎪⎩x∈π2，若y-1>y-2

-1-1-1其中1=(1-2)'Sp注意到1-2=(1-2)'Sp1，2=(1-2)'Sp2。(1-2)>0，

12。因此，上述判别规则等价于

1⎧x∈π，若y≥(1+2)1⎪⎪2 ⎨⎪x∈π，若y

也可以表达为

1⎧-1'x∈π，若(-)S[x-(1-2)]≥0112p⎪⎪2 ⎨⎪x∈π，若(-)'S-1[x-1(-)]

此正为（5.2.6）式。

上例表明，对于两组的判别，费希尔判别等价于协方差矩阵相等的距离判别，对两个正态组也等价于协方差相等且先验概率和误判代价也均相同的贝叶斯判别。

当使用的判别函数个数r=2时，可将各样品的两个判别函数得分画成平面直角坐标系上的散点图，用目测法对新样品的归属进行判别或对来自各组样品的分离情况及结构进行观测评估。当r=3时，可利用SAS的交互式数据分析菜单系统，让样本中来自不同组的样品点呈现不同颜色（或不同形状）以区分各组，然后作（三维）旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效果，但其目测效果一般明显不如r=2时清楚。能够利用降维后生成的图形用目测法进行判别是费希尔判别的最重要应用，图中常常能清晰地展示出（通过计算未必能得到的）丰富的信息，如发现构成各组的结构、离群样品点和数据中的其他异常情况等。

附：回代判别

为考察上述判别准则是否优良，采用以训练样本为基础的回代估计法计算误

(i)(i)(i)Txα=(xαGnα=1,2,⋅⋅⋅,ni；1,⋅⋅⋅,xαp)ii判率。来自总体容量为的训练样本（其中，

i=1,2,⋅⋅⋅,k），以所有的训练样本作为新样本，依次代入建立的判别函数中，并且利用判别准则进行判别，该过程称为回判。用

为总体nij表示将属于总体Gi的样本误判Gi的个数，设总的误判个数为N，则误判率η的回代估计为

η=N n1+n2+⋅⋅⋅+nm

费希尔判别

图投影到某个方向再判别

最好的投影是投影

我们现考虑在Rp中将k组的p维数据向量投影到某个具有最佳方向的a上，即投影到a上的点能最大限度地显现出各组之间的差异。

设来自组πi的p维观测值为xij，j=1,2,⋅⋅⋅,ni，i=1,2,⋅⋅⋅,k，将它们共同投影

'xij，到某一p维常数向量a上，得到的投影点可分别对应线性组合yij=a

j=1,2,⋅⋅⋅,ni，i=1,2,⋅⋅⋅,k。这样，所有的p维观测值就简化为一维观测值。下面我们用yi表示组πi中yij的均值，y表示所有组k组的yij的总均值，即

1yi=ni∑yj=1niij=a'xi

1kniy=∑∑yij=a'xi ni=1j=1

1式中n=∑ni，xi=nii=1

图三组之间的分离程度

yij的组间平方和

SSTR=∑ni(yi-y)=∑ni(a'xi-a'x)2=a'Ha 2

i=1i=1kk

式中H=∑ni(xi-x)(xi-x)'为组间平方和及叉积和矩阵。yij的组内平方和

i=1k

SSE=∑∑ni(yij-yi)=∑∑(a'xij-a'xi)2=a'Ea 2

i=1j=1i=1j=1knikni

式中E=∑(ni-1)Si=∑∑(xij-xi)(xij-xi)'为组内平方和及叉积和矩阵。

i=1i=1j=1kkni

可用来度量yij的组之间分离程度的一个量是

∆(a)=SSTRa'Ha= SSEa'Ea

我们应选择这样的a，使得∆(a)达到最大。由于对任意非零常数c，用ca代替上式中的a，∆(a)将保持不变，故考虑对a加以约束。我们希望判别函数y=a'x具

'∑a有单位方差，即V(a'x)=a=1，但因∑未知，于是用其联合无偏估计

Sp=1E替代，所以a的约束条件实际应为a'Spa=1，即判别函数的联合样本n-k

方差为1。

有设E-1H的全部非零特征值依次为λ1≥λ2≥⋅⋅⋅≥λs>0，这里s=rank(H)，且

s≤min(k-1,p)（5.4.2）

Cov（y1,y2）=Cov（t1'x,a2'x）=t1'∑a2=0

用Sp代替未知的∑，于是我们在约束条件

t1'Spa2=0(或t1'Ea2=0)

（a2）（a2）下寻找a2，使得∆达到最大。按（1.8.6）式，当a2=t2时∆达到最大值λ2，

称y2=t2'x为第二判别函数。如还不够，可再建立第三判别函数y3，依次类推。一般地，我们要求第i个线性组合yi=ai'x不重复前i-1个判别函数中的信息，即

Cov（yj,yi）=Cov（tj'x,ai'x）=tj'∑ai=0，j=1,2,⋅⋅⋅,i-1

用Sp代替∑，上式变为

tj'Spai=0(或tj'Eai=0)，j=1,2,⋅⋅⋅,i-1

（ai）我们希望在约束条件（）下寻找ai，使得∆达到最大。由（1.8.6）式知，当ai=ti

（ai）时∆达到最大值λi，称yi=ti'x为第i判别函数，i=2,3,⋅⋅⋅,s。

附：1.85-1.86

设A是p阶对称矩阵，B是p阶正定矩阵，μ1≥μ2≥⋅⋅⋅≥μp是B-1A的p个特征值，相应的一组特征向量t1,t2,⋅⋅⋅,tp，满足ti'Btj=0，1≤i≠j≤p，则

（ⅰ） x'Ax=μ1 (当x=t1时达到)x≠0x'Bx 'xAxmin=μp (当x=tp时达到)x≠0x'Bxmax

（ⅱ） x'Ax=μi (当x=ti时达到)，i=2,3,⋅⋅⋅,p x'Btk≠0x'Bxk=1,⋅⋅⋅,i-1maxx≠0

∆(ti)=λi表明了第i判别函数yi对分离各组的贡献大小，yi在所有s个判别函数中的贡献率为

λi/∑λj

j=1s

而前r(≤s)个判别函数y1,y2,⋅⋅⋅,yr的累计贡献率为

∑λ/∑λ ii

i=1i=1rs

要降维。如果前r个判别函数的累计贡献率已达到了一个较高的比例（如75%~95%），则就采用这r个判别函数进行判别。

x∈πl，若∑(yj-lj)=min∑(yj-ij)2（5.4.6） 2

j=11≤i≤kj=1rr

1'jx其中ij=t，=iini∑xj=1niij，ij为第j判别函数在组πi的样本均值

i=(i1,i2,⋅⋅⋅,ir)'的平方欧式距离，i=1,2,⋅⋅⋅,k。（5.4.6）式也可表达为

x∈πl，若∑[t'j(x-l)]=min∑[t'j(x-i)]2 2

j=11≤i≤kj=1rr

如果只使用一个判别函数进行判别（即r=1），则（5.4.6）式可简化为

x∈πl，若y-l=miny-i（5.4.7） 1≤i≤k

式中y和i(i=1,2,⋅⋅⋅,k)分别是（5.4.6）式中的y1和i1(i=1,2,⋅⋅⋅,k)。

有时我们也使用中心化的费希尔判别函数，即

yi=ti'(x-)，i=1,2,⋅⋅⋅,s 1kni式中∑∑xij为k个组的总均值，仍使用（5.4.6）式进行判别。 ni=1j=1

例5.4.1（有用结论）组数k=2时的费希尔判别。

由于

n11+n22 n1+n2

1-n2n(1-2)，2-1(2-1) n1+n2n1+n2

故组间矩阵

H=n1(1-)(1-)'+n2(2-)(2-)

=n1n2(1-2)(1-2)' n1+n2

假设组内矩阵E是可逆的（必须有n1-n2-2≥p），则有ξ1.6一中的性质（2）知

E-1H=n1n2E-1(1-2)(1-2)' n1+n2

有唯一的非零特征值

λ=n1n2(1-2)'E-1(1-2) n1+n2

这是一个正数（因为E>0）。令a为相应的特征向量，它应满足

(H-λE)a=0

即

Ha=λEa

于是

n1n2nn(1-2)(1-2)'a=12(1-2)'E-1(1-2)Ea n1+n2n1+n2

-1易见，a=Sp(1-2)满足上述方程，这里Sp=1E为联合协方差矩阵。为n1+n2-2

此，费希尔判别函数为

-1y=(1-2)'Spx

按（5.4.7）式，判别规则为

⎧⎪x∈π1，若y-1≤y-2 ⎨⎪⎩x∈π2，若y-1>y-2

-1-1-1其中1=(1-2)'Sp注意到1-2=(1-2)'Sp1，2=(1-2)'Sp2。(1-2)>0，

12。因此，上述判别规则等价于

1⎧x∈π，若y≥(1+2)1⎪⎪2 ⎨⎪x∈π，若y

也可以表达为

1⎧-1'x∈π，若(-)S[x-(1-2)]≥0112p⎪⎪2 ⎨⎪x∈π，若(-)'S-1[x-1(-)]

此正为（5.2.6）式。

附：回代判别

为考察上述判别准则是否优良，采用以训练样本为基础的回代估计法计算误

(i)(i)(i)Txα=(xαGnα=1,2,⋅⋅⋅,ni；1,⋅⋅⋅,xαp)ii判率。来自总体容量为的训练样本（其中，

i=1,2,⋅⋅⋅,k），以所有的训练样本作为新样本，依次代入建立的判别函数中，并且利用判别准则进行判别，该过程称为回判。用

为总体nij表示将属于总体Gi的样本误判Gi的个数，设总的误判个数为N，则误判率η的回代估计为

η=N n1+n2+⋅⋅⋅+nm

费希尔判别法理论

相关文章