基尼系数的计算方法及数学推导

基尼系数的计算方法及数学推导

2001金融三班 袁源

摘要:本文归纳了基尼系数的四种计算方法:直接计算法、拟合曲线法、分组计算法和分解法,并进行了

数学推导和证明。在此基础上,文章比较了各种算法优缺点,分析了误差可能产生的环节。 关键词:洛伦茨曲线 基尼系数

一、洛伦茨曲线和基尼系数

1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。

图一

为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一个反映收入分配平等程度的指标,称为基尼系数(G )。在上图中,基尼系数定义为:

G= 式(1)

A+B

当A 为0时,基尼系数为0,表示收入分配绝对平等;当B 为0时,基尼系数为1,表示收入分配绝对不平等。基尼系数在0~1之间,系数越大,表示越不均等,系数越小,表示越均等。

二、基尼系数的计算方法

式(1)虽然是一个极为简明的数学表达式,但它并不具有实际的可操作性。为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索。在已有的研究成果中,主要有四种有代表性的估算方法,结合自己的计算,笔者将它们归纳为直接计算法、拟合曲线法、分组计算法和分解法。

1、直接计算法

直接计算法在基尼提出收入不平等的一种度量时,就已经给出了具体算法,而且这种算法并不依赖于洛伦茨曲线,它直接度量收入不平等的程度。定义

n n2 △=∑∑ Y j -Y i ∣/n, 0≤△≤2u 式(2) j=1 i=1∣

式中,△是基尼平均差,∣Y j -Y i ∣是任何一对收入样本差的绝对值,n 是样本容量,u 是收入均值。

定义

G=△/2u, 0≤G ≤1 式(3) 可以证明:G=△/2u=2S A (证明过程见附录一),而由式(1)G= SA / SA+B,S A+B=1/2,G=2SA , 因此,式(2)中定义的G 即为基尼系数,综合式(2)、(3),基尼系数的计算方法为: n nG= Y j -Y i ∣ 式(4) 2n u ∑∑

j=1 i=1∣

直接计算法只涉及居民收入样本数据的算术运算,很多学者认为理论上看,只要不存在来源于样本数

据方面的误差,就不存在产生误差的环节。实际上,在附录一证明过程当中将看到,直接计算法依然采用了以直代曲法计算面积,只不过这个过程在样本数据范围内达到了最小近似,其精确度直接取决于样本数据本身。因此,可以认为它不带任何误差的计算了样本数据的基尼系数值。

2、拟合曲线法

拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦茨曲线,得出曲线的函数表达式,然后用积分法求出B 的面积,计算基尼系数。通常是通过设定洛伦茨曲线方程,用回归的方法求出参数,再计算积分。例如,设定洛伦茨曲线的函数关系式为幂函数:

β

I=αP 式(5)

根据选定的样本数据,用回归法求出洛伦茨曲线,例如,α=m, β=n.求积分

S B =∫0mp n dp= 式(6)

n+1

1

计算

=1- G= 式(7)

n+1 A+BA+B

拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生

误差;二是拟合出来的函数应该是可积的,否则就无法计算。

3、分组计算法

这种方法的思路有点类似用几何定义计算积分的方法,在X 轴上寻找n 个分点,将洛伦茨曲线下方的区域分成n 部分,每部分用以直代曲的方法计算面积,然后加总求出面积。分点越多,就越准确,当分点达到无穷大时,则为精确计算。

图二

假设分为n 组,每组的收入为Y i ,则每个部分P 的面积为:

i-1

i

式(8)

S P = Y 2n ∑

i

加总得到:

-S =1-2lim ∑ 式(9) G= S A+B S A+B k →∞ 2n ∑Y i

这是精确计算基尼系数的表达式,当分点n 个数有限时,定义:

y i = 式(10)

∑Y

i

n

i-1 i

得到近似表达式:

··+ny n )-( ) 式(11) G=2SA = (y 1+2y2+·

n n

(证明过程见附录二)

分组计算法不依赖于洛伦茨曲线的函数形式,但在以直代曲的环节会出现误差,增加分点的个数可以减少这种误差。

4、分解法

上述的计算方法的最终目的都在于求出基尼系数的值,而分解法则是在求出上述值的基础上,力图研究基尼系数的构成因素,除了得出总的基尼系数的信息之外,在计算过程中还能够获得分解部分内部的基尼系数值。另外,分解法求出基尼系数的过程一般都依赖于已有部分的基尼系数的值,从这个意义上说,分解法并不是独立计算基尼系数的方法,它更重要的意义在于对基尼系数的分解,即定义的各个不同基尼系数值之间的相互关系。

伦敦经济学院收入分配方法论专家Cowell 教授提出,基尼系数在不同人群组之间无法完全分解于尽。总体基尼系数除了包括各个组内差距之外,还应包括组间差距和相互作用项。公式为:

k W G +I+ε(f )G = ∑i i b i 式(12)

式中,G 是总体基尼系数,G i 是第i 组内部的基尼系数(i=1,2,…,n ),W i 是G i 的权数,I b 是组间的

差距指数,ε(f i )是相互作用项。ε(f i )是各个组之间收入分布的重叠程度。特别地,当各个组之间收入分布完全不重叠时,ε(f i )=0。

式(12)地意义在于形式化地表述了对总体基尼系数进行分解的思路和框架,但由于没有给出W i 、I b

和ε(f i )的具体计算方法,还不能用于基尼系数的计算。

经济学家Sundrum (1990)在他的《欠发达国家的收入分配》一书中介绍了一种对一国或地区基尼系数进行分解的方法,其数学公式为:

2

式(13) G=P1 u G 1+ P22+P1P 2︱ u 式中,G 表示总体基尼系数,G 1和G 2分别表示农村和城镇的基尼系数,P 1、P 2分别表示农村人口和城镇人口占总人口的比重,u 1、u 2、u 分别表示农村、城镇和总体的人均收入。

对比式(12)和式(13),可以发现式(13)是式(12)的一种具体运用,P 11和P 22可

k

为权重的∑W i G i ,P 1P 2︱︱则为组间差距指数I b 。值得注意的是式中和P 2以作为以P 1

没有ε(f i )项,意味着ε(f i )=0成立,因此这种算法隐含的假设条件是农村与城镇的收入分布完全不重叠。此外,采用这种计算方法还必须满足条件:在估算城乡内部的基尼系数时所用的居民收入数据的口径是相同或相近的。

这种方法会在可能在两个环节产生误差:一是用其他方法估计城乡各自的基尼系数G 1和G 2时,可能产生误差;二是城乡收入分布一般会在不同程度上重叠。

附录一:

证明:G=△/2u=2S A

n n

第一步,分解 ∑∑ Y j -Y i ∣

j=1 i=1∣

设将收入按从低到高排列Y

、Y 、……Y ,则上式可以分解为矩阵A :

将矩阵中各项加总得到: 2〔(n -1)Y n +(n -2)Y n -1+……+Y 2—(n -1)Y 1-(n -2)Y 2-……-Y n -1〕 =2〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕

第二步,计算 2

2n u

n 取样本均值u= =Y i

n

Y 2n 2u 2n ∑i

综上,第一步、第二步,得到 G = 〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕 n ∑Y

i

式(14) 第三步,计算S B

D

C

i -1 图三

如图四,计算每一部分面积S P

i-1

i

P

n A i -1

图四

B i

S = AB (AC +BD )= P

Y 2 2n ∑

i

i-1

n

i

S B =∑

Y 2n ∑

i

第四步,计算S A

n n n

=- ∑ S A =SA +B -S B =Y Y 2n ∑ 2 2n ∑

i

i

i-1 i i-1 i

n n

分解n ∑Y i -∑ ∑Y i +∑Y i 得到矩阵B

i-1 i

i-1

i

n Y -∑ n ∑Y +∑Y =(n -1)Y +(n -2)Y +……+Y —(n -1)Y -(n -2)Y -……-n ∑i i i n n -1212

Y n -1=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1

n n 〔=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1S A = Y 2n ∑ Y 2n ∑

i

i

i-1 i

-n )Y 2-(n -1)Y 1〕 式(15)

比较式(14)和式(15)可得G=△/2u=2S A 。

附录二:

··+ny n )-( ) 证明:当分点个数n 有限时,G=2SA = (y 1+2y2+·

n n

Y 定义:y i = Y ∑

i

i-1 i ii-1

S P =AB (AC +BD )= = Y 2 i 2n 2n ∑∑Y i ∑Y i

i-1

n

i

S B =∑

Y 2n ∑

i

n n

+∑=S A =SA +B -S B = - ∑

∑Y Y 2n 2 2n ∑

n

i

i

i-1 i i-1 i

n n n n

= =Y 2n ∑ ∑Y 2n

i

i i

i

n i n

∑y i +2∑y i )- =(2n -2 ∑

2n 2n

i

分解n - ∑∑y i 得到矩阵C :

n

加总最后一列,得到

n

i n - ∑∑y i =(n-1)y n +(n -2)y n -1+……y 2

n i n

∑y i +2∑y i )- S A =(2n -2 ∑

2n 2n

y +2y+···+ny n )- =12

2n n

··+ny n )-( ) G=2SA = (y 1+2y2+·

n n

参考资料:

1、 Sundrum.R.M,1990,Incom Distribution in Less Developed Counties, London and New

York:Routledge

2、 Cowell.F.A,2000,Measurement of Inequality, in Handbook of Income Distribution, eds. By

A.Atkirrson and F.Bourguignon, Northholland 3、 熊俊:《基尼系数估算方法的比较研究》;《财经问题研究》2003年1月第1期 4、 王文森:《基尼系数及推广应用》;《统计与预测》;2003年1月第1期

基尼系数的计算方法及数学推导

2001金融三班 袁源

摘要:本文归纳了基尼系数的四种计算方法:直接计算法、拟合曲线法、分组计算法和分解法,并进行了

数学推导和证明。在此基础上,文章比较了各种算法优缺点,分析了误差可能产生的环节。 关键词:洛伦茨曲线 基尼系数

一、洛伦茨曲线和基尼系数

1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。

图一

为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一个反映收入分配平等程度的指标,称为基尼系数(G )。在上图中,基尼系数定义为:

G= 式(1)

A+B

当A 为0时,基尼系数为0,表示收入分配绝对平等;当B 为0时,基尼系数为1,表示收入分配绝对不平等。基尼系数在0~1之间,系数越大,表示越不均等,系数越小,表示越均等。

二、基尼系数的计算方法

式(1)虽然是一个极为简明的数学表达式,但它并不具有实际的可操作性。为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索。在已有的研究成果中,主要有四种有代表性的估算方法,结合自己的计算,笔者将它们归纳为直接计算法、拟合曲线法、分组计算法和分解法。

1、直接计算法

直接计算法在基尼提出收入不平等的一种度量时,就已经给出了具体算法,而且这种算法并不依赖于洛伦茨曲线,它直接度量收入不平等的程度。定义

n n2 △=∑∑ Y j -Y i ∣/n, 0≤△≤2u 式(2) j=1 i=1∣

式中,△是基尼平均差,∣Y j -Y i ∣是任何一对收入样本差的绝对值,n 是样本容量,u 是收入均值。

定义

G=△/2u, 0≤G ≤1 式(3) 可以证明:G=△/2u=2S A (证明过程见附录一),而由式(1)G= SA / SA+B,S A+B=1/2,G=2SA , 因此,式(2)中定义的G 即为基尼系数,综合式(2)、(3),基尼系数的计算方法为: n nG= Y j -Y i ∣ 式(4) 2n u ∑∑

j=1 i=1∣

直接计算法只涉及居民收入样本数据的算术运算,很多学者认为理论上看,只要不存在来源于样本数

据方面的误差,就不存在产生误差的环节。实际上,在附录一证明过程当中将看到,直接计算法依然采用了以直代曲法计算面积,只不过这个过程在样本数据范围内达到了最小近似,其精确度直接取决于样本数据本身。因此,可以认为它不带任何误差的计算了样本数据的基尼系数值。

2、拟合曲线法

拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦茨曲线,得出曲线的函数表达式,然后用积分法求出B 的面积,计算基尼系数。通常是通过设定洛伦茨曲线方程,用回归的方法求出参数,再计算积分。例如,设定洛伦茨曲线的函数关系式为幂函数:

β

I=αP 式(5)

根据选定的样本数据,用回归法求出洛伦茨曲线,例如,α=m, β=n.求积分

S B =∫0mp n dp= 式(6)

n+1

1

计算

=1- G= 式(7)

n+1 A+BA+B

拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生

误差;二是拟合出来的函数应该是可积的,否则就无法计算。

3、分组计算法

这种方法的思路有点类似用几何定义计算积分的方法,在X 轴上寻找n 个分点,将洛伦茨曲线下方的区域分成n 部分,每部分用以直代曲的方法计算面积,然后加总求出面积。分点越多,就越准确,当分点达到无穷大时,则为精确计算。

图二

假设分为n 组,每组的收入为Y i ,则每个部分P 的面积为:

i-1

i

式(8)

S P = Y 2n ∑

i

加总得到:

-S =1-2lim ∑ 式(9) G= S A+B S A+B k →∞ 2n ∑Y i

这是精确计算基尼系数的表达式,当分点n 个数有限时,定义:

y i = 式(10)

∑Y

i

n

i-1 i

得到近似表达式:

··+ny n )-( ) 式(11) G=2SA = (y 1+2y2+·

n n

(证明过程见附录二)

分组计算法不依赖于洛伦茨曲线的函数形式,但在以直代曲的环节会出现误差,增加分点的个数可以减少这种误差。

4、分解法

上述的计算方法的最终目的都在于求出基尼系数的值,而分解法则是在求出上述值的基础上,力图研究基尼系数的构成因素,除了得出总的基尼系数的信息之外,在计算过程中还能够获得分解部分内部的基尼系数值。另外,分解法求出基尼系数的过程一般都依赖于已有部分的基尼系数的值,从这个意义上说,分解法并不是独立计算基尼系数的方法,它更重要的意义在于对基尼系数的分解,即定义的各个不同基尼系数值之间的相互关系。

伦敦经济学院收入分配方法论专家Cowell 教授提出,基尼系数在不同人群组之间无法完全分解于尽。总体基尼系数除了包括各个组内差距之外,还应包括组间差距和相互作用项。公式为:

k W G +I+ε(f )G = ∑i i b i 式(12)

式中,G 是总体基尼系数,G i 是第i 组内部的基尼系数(i=1,2,…,n ),W i 是G i 的权数,I b 是组间的

差距指数,ε(f i )是相互作用项。ε(f i )是各个组之间收入分布的重叠程度。特别地,当各个组之间收入分布完全不重叠时,ε(f i )=0。

式(12)地意义在于形式化地表述了对总体基尼系数进行分解的思路和框架,但由于没有给出W i 、I b

和ε(f i )的具体计算方法,还不能用于基尼系数的计算。

经济学家Sundrum (1990)在他的《欠发达国家的收入分配》一书中介绍了一种对一国或地区基尼系数进行分解的方法,其数学公式为:

2

式(13) G=P1 u G 1+ P22+P1P 2︱ u 式中,G 表示总体基尼系数,G 1和G 2分别表示农村和城镇的基尼系数,P 1、P 2分别表示农村人口和城镇人口占总人口的比重,u 1、u 2、u 分别表示农村、城镇和总体的人均收入。

对比式(12)和式(13),可以发现式(13)是式(12)的一种具体运用,P 11和P 22可

k

为权重的∑W i G i ,P 1P 2︱︱则为组间差距指数I b 。值得注意的是式中和P 2以作为以P 1

没有ε(f i )项,意味着ε(f i )=0成立,因此这种算法隐含的假设条件是农村与城镇的收入分布完全不重叠。此外,采用这种计算方法还必须满足条件:在估算城乡内部的基尼系数时所用的居民收入数据的口径是相同或相近的。

这种方法会在可能在两个环节产生误差:一是用其他方法估计城乡各自的基尼系数G 1和G 2时,可能产生误差;二是城乡收入分布一般会在不同程度上重叠。

附录一:

证明:G=△/2u=2S A

n n

第一步,分解 ∑∑ Y j -Y i ∣

j=1 i=1∣

设将收入按从低到高排列Y

、Y 、……Y ,则上式可以分解为矩阵A :

将矩阵中各项加总得到: 2〔(n -1)Y n +(n -2)Y n -1+……+Y 2—(n -1)Y 1-(n -2)Y 2-……-Y n -1〕 =2〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕

第二步,计算 2

2n u

n 取样本均值u= =Y i

n

Y 2n 2u 2n ∑i

综上,第一步、第二步,得到 G = 〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕 n ∑Y

i

式(14) 第三步,计算S B

D

C

i -1 图三

如图四,计算每一部分面积S P

i-1

i

P

n A i -1

图四

B i

S = AB (AC +BD )= P

Y 2 2n ∑

i

i-1

n

i

S B =∑

Y 2n ∑

i

第四步,计算S A

n n n

=- ∑ S A =SA +B -S B =Y Y 2n ∑ 2 2n ∑

i

i

i-1 i i-1 i

n n

分解n ∑Y i -∑ ∑Y i +∑Y i 得到矩阵B

i-1 i

i-1

i

n Y -∑ n ∑Y +∑Y =(n -1)Y +(n -2)Y +……+Y —(n -1)Y -(n -2)Y -……-n ∑i i i n n -1212

Y n -1=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1

n n 〔=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1S A = Y 2n ∑ Y 2n ∑

i

i

i-1 i

-n )Y 2-(n -1)Y 1〕 式(15)

比较式(14)和式(15)可得G=△/2u=2S A 。

附录二:

··+ny n )-( ) 证明:当分点个数n 有限时,G=2SA = (y 1+2y2+·

n n

Y 定义:y i = Y ∑

i

i-1 i ii-1

S P =AB (AC +BD )= = Y 2 i 2n 2n ∑∑Y i ∑Y i

i-1

n

i

S B =∑

Y 2n ∑

i

n n

+∑=S A =SA +B -S B = - ∑

∑Y Y 2n 2 2n ∑

n

i

i

i-1 i i-1 i

n n n n

= =Y 2n ∑ ∑Y 2n

i

i i

i

n i n

∑y i +2∑y i )- =(2n -2 ∑

2n 2n

i

分解n - ∑∑y i 得到矩阵C :

n

加总最后一列,得到

n

i n - ∑∑y i =(n-1)y n +(n -2)y n -1+……y 2

n i n

∑y i +2∑y i )- S A =(2n -2 ∑

2n 2n

y +2y+···+ny n )- =12

2n n

··+ny n )-( ) G=2SA = (y 1+2y2+·

n n

参考资料:

1、 Sundrum.R.M,1990,Incom Distribution in Less Developed Counties, London and New

York:Routledge

2、 Cowell.F.A,2000,Measurement of Inequality, in Handbook of Income Distribution, eds. By

A.Atkirrson and F.Bourguignon, Northholland 3、 熊俊:《基尼系数估算方法的比较研究》;《财经问题研究》2003年1月第1期 4、 王文森:《基尼系数及推广应用》;《统计与预测》;2003年1月第1期


相关文章

  • 变温大气压强与海拔高度关系公式推导
  • 变温大气压强与海拔高度关系公式推导 bwdqy 有些网上朋友提问关于大气压与海拔高度的关系.公式及推导.回答各有所长,为了互相交流.互补,特写本文. 提到大气压与高度关系,自然想到相关的等温气压方程,网上朋友也多次提到它,下面就从它的推导过 ...查看


  • 傅里叶级数的数学推导
  • 傅里叶级数的数学推导 首先,隆重推出傅里叶级数的公式,不过这个东西属于"文物"级别的,诞生于19世纪初,因为傅里叶他老人家生于1768年,死于1830年. 但傅里叶级数在数论.组合数学.信号处理.概率论.统计学.密码学. ...查看


  • 别让"过程"走"过场"--一次同课异构教学活动的反思
  • 别让"过程"走"过场" --一次同课异构教学活动的反思 邱 云(福建省宁化第一中学) 李 祎(福建师范大学数学与计算机科学学院) [<中国数学教育>杂志] "注重过程" ...查看


  • [西方经济学]课程教学大纲
  • 西方经济学课程教学大纲 课程中文名称:西方经济学 课程英文名称:Western Economics 课程编号:XJ01505 适用专业:物流管理.质量管理工程专业 总学时数:68学时 总 学 分:4 开课学期:春季或秋季 参考教材:< ...查看


  • 用Excel计算相关系数和进行回归分析
  • 第一节 回归和相关的概念 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差 异.但生物学所涉及的问题是多种多样的,对许多问题的研究需要考虑 不只一个变量,例如生物的生长发育速度就与温度,营养,湿度 „„ 等 许多因素有关,我们常常 ...查看


  • 直线的倾斜角和斜率
  • 教学目标 (1)了解直线方程的概念. (2)正确理解直线倾斜角和斜率概念.理解每条直线的倾斜角是唯一的,但不是每条直线都存在斜率. (3)理解公式的推导过程,掌握过两点的直线的斜率公式. (4)通过直线倾斜角概念的引入和直线倾斜角与斜率关系 ...查看


  • 经管应用数学B模块教学大纲
  • 经管应用数学B 模块教学大纲 模块编号:M071103 模块名称:经管应用数学B 理论学时:72 实践学时:8 总学时数:80 总学分:5 后续模块: 一. 说明部分 1. 模块性质 本模块是文科类本科各专业(包括经济系.管理系各专业)的学 ...查看


  • 二维热传导方程有限容积法的MATLAB实现_薛琼
  • ComputerEngineeringandApplications计算机工程与应用2012,48(24)197 二维热传导方程有限容积法的MATLAB实现 薛琼1,肖小峰2 XUEQiong1,XIAOXiaofeng2 1.武汉理工大学 ...查看


  • 圆的标准方程教案
  • 第四章 圆与方程 4.1 圆的方程 4.1.1 圆的标准方程 教材分析 本节内容数学必修2 第四章 第一节的起始课,是在学习了直线的有关知识后学习的,圆是学生比较熟悉的曲线,在初中就已学过圆的定义.这节课主要是根据圆的定义,推出圆的标准方程 ...查看


热门内容