基尼系数的计算方法及数学推导
2001金融三班 袁源
摘要:本文归纳了基尼系数的四种计算方法:直接计算法、拟合曲线法、分组计算法和分解法,并进行了
数学推导和证明。在此基础上,文章比较了各种算法优缺点,分析了误差可能产生的环节。 关键词:洛伦茨曲线 基尼系数
一、洛伦茨曲线和基尼系数
1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。
图一
为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一个反映收入分配平等程度的指标,称为基尼系数(G )。在上图中,基尼系数定义为:
G= 式(1)
A+B
当A 为0时,基尼系数为0,表示收入分配绝对平等;当B 为0时,基尼系数为1,表示收入分配绝对不平等。基尼系数在0~1之间,系数越大,表示越不均等,系数越小,表示越均等。
二、基尼系数的计算方法
式(1)虽然是一个极为简明的数学表达式,但它并不具有实际的可操作性。为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索。在已有的研究成果中,主要有四种有代表性的估算方法,结合自己的计算,笔者将它们归纳为直接计算法、拟合曲线法、分组计算法和分解法。
1、直接计算法
直接计算法在基尼提出收入不平等的一种度量时,就已经给出了具体算法,而且这种算法并不依赖于洛伦茨曲线,它直接度量收入不平等的程度。定义
n n2 △=∑∑ Y j -Y i ∣/n, 0≤△≤2u 式(2) j=1 i=1∣
式中,△是基尼平均差,∣Y j -Y i ∣是任何一对收入样本差的绝对值,n 是样本容量,u 是收入均值。
定义
G=△/2u, 0≤G ≤1 式(3) 可以证明:G=△/2u=2S A (证明过程见附录一),而由式(1)G= SA / SA+B,S A+B=1/2,G=2SA , 因此,式(2)中定义的G 即为基尼系数,综合式(2)、(3),基尼系数的计算方法为: n nG= Y j -Y i ∣ 式(4) 2n u ∑∑
j=1 i=1∣
直接计算法只涉及居民收入样本数据的算术运算,很多学者认为理论上看,只要不存在来源于样本数
据方面的误差,就不存在产生误差的环节。实际上,在附录一证明过程当中将看到,直接计算法依然采用了以直代曲法计算面积,只不过这个过程在样本数据范围内达到了最小近似,其精确度直接取决于样本数据本身。因此,可以认为它不带任何误差的计算了样本数据的基尼系数值。
2、拟合曲线法
拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦茨曲线,得出曲线的函数表达式,然后用积分法求出B 的面积,计算基尼系数。通常是通过设定洛伦茨曲线方程,用回归的方法求出参数,再计算积分。例如,设定洛伦茨曲线的函数关系式为幂函数:
β
I=αP 式(5)
根据选定的样本数据,用回归法求出洛伦茨曲线,例如,α=m, β=n.求积分
S B =∫0mp n dp= 式(6)
n+1
1
计算
=1- G= 式(7)
n+1 A+BA+B
拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生
误差;二是拟合出来的函数应该是可积的,否则就无法计算。
3、分组计算法
这种方法的思路有点类似用几何定义计算积分的方法,在X 轴上寻找n 个分点,将洛伦茨曲线下方的区域分成n 部分,每部分用以直代曲的方法计算面积,然后加总求出面积。分点越多,就越准确,当分点达到无穷大时,则为精确计算。
图二
假设分为n 组,每组的收入为Y i ,则每个部分P 的面积为:
i-1
i
式(8)
S P = Y 2n ∑
i
加总得到:
-S =1-2lim ∑ 式(9) G= S A+B S A+B k →∞ 2n ∑Y i
这是精确计算基尼系数的表达式,当分点n 个数有限时,定义:
y i = 式(10)
∑Y
i
n
i-1 i
得到近似表达式:
··+ny n )-( ) 式(11) G=2SA = (y 1+2y2+·
n n
(证明过程见附录二)
分组计算法不依赖于洛伦茨曲线的函数形式,但在以直代曲的环节会出现误差,增加分点的个数可以减少这种误差。
4、分解法
上述的计算方法的最终目的都在于求出基尼系数的值,而分解法则是在求出上述值的基础上,力图研究基尼系数的构成因素,除了得出总的基尼系数的信息之外,在计算过程中还能够获得分解部分内部的基尼系数值。另外,分解法求出基尼系数的过程一般都依赖于已有部分的基尼系数的值,从这个意义上说,分解法并不是独立计算基尼系数的方法,它更重要的意义在于对基尼系数的分解,即定义的各个不同基尼系数值之间的相互关系。
伦敦经济学院收入分配方法论专家Cowell 教授提出,基尼系数在不同人群组之间无法完全分解于尽。总体基尼系数除了包括各个组内差距之外,还应包括组间差距和相互作用项。公式为:
k W G +I+ε(f )G = ∑i i b i 式(12)
式中,G 是总体基尼系数,G i 是第i 组内部的基尼系数(i=1,2,…,n ),W i 是G i 的权数,I b 是组间的
差距指数,ε(f i )是相互作用项。ε(f i )是各个组之间收入分布的重叠程度。特别地,当各个组之间收入分布完全不重叠时,ε(f i )=0。
式(12)地意义在于形式化地表述了对总体基尼系数进行分解的思路和框架,但由于没有给出W i 、I b
和ε(f i )的具体计算方法,还不能用于基尼系数的计算。
经济学家Sundrum (1990)在他的《欠发达国家的收入分配》一书中介绍了一种对一国或地区基尼系数进行分解的方法,其数学公式为:
2
式(13) G=P1 u G 1+ P22+P1P 2︱ u 式中,G 表示总体基尼系数,G 1和G 2分别表示农村和城镇的基尼系数,P 1、P 2分别表示农村人口和城镇人口占总人口的比重,u 1、u 2、u 分别表示农村、城镇和总体的人均收入。
对比式(12)和式(13),可以发现式(13)是式(12)的一种具体运用,P 11和P 22可
k
为权重的∑W i G i ,P 1P 2︱︱则为组间差距指数I b 。值得注意的是式中和P 2以作为以P 1
没有ε(f i )项,意味着ε(f i )=0成立,因此这种算法隐含的假设条件是农村与城镇的收入分布完全不重叠。此外,采用这种计算方法还必须满足条件:在估算城乡内部的基尼系数时所用的居民收入数据的口径是相同或相近的。
这种方法会在可能在两个环节产生误差:一是用其他方法估计城乡各自的基尼系数G 1和G 2时,可能产生误差;二是城乡收入分布一般会在不同程度上重叠。
附录一:
证明:G=△/2u=2S A
n n
第一步,分解 ∑∑ Y j -Y i ∣
j=1 i=1∣
设将收入按从低到高排列Y
、Y 、……Y ,则上式可以分解为矩阵A :
将矩阵中各项加总得到: 2〔(n -1)Y n +(n -2)Y n -1+……+Y 2—(n -1)Y 1-(n -2)Y 2-……-Y n -1〕 =2〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕
第二步,计算 2
2n u
n 取样本均值u= =Y i
n
=
Y 2n 2u 2n ∑i
综上,第一步、第二步,得到 G = 〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕 n ∑Y
i
式(14) 第三步,计算S B
D
C
i -1 图三
如图四,计算每一部分面积S P
i-1
i
P
n A i -1
图四
B i
S = AB (AC +BD )= P
Y 2 2n ∑
i
i-1
n
i
S B =∑
Y 2n ∑
i
第四步,计算S A
n n n
=- ∑ S A =SA +B -S B =Y Y 2n ∑ 2 2n ∑
i
i
i-1 i i-1 i
n n
分解n ∑Y i -∑ ∑Y i +∑Y i 得到矩阵B
i-1 i
i-1
i
n Y -∑ n ∑Y +∑Y =(n -1)Y +(n -2)Y +……+Y —(n -1)Y -(n -2)Y -……-n ∑i i i n n -1212
Y n -1=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1
n n 〔=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1S A = Y 2n ∑ Y 2n ∑
i
i
i-1 i
-n )Y 2-(n -1)Y 1〕 式(15)
比较式(14)和式(15)可得G=△/2u=2S A 。
附录二:
··+ny n )-( ) 证明:当分点个数n 有限时,G=2SA = (y 1+2y2+·
n n
Y 定义:y i = Y ∑
i
i-1 i ii-1
S P =AB (AC +BD )= = Y 2 i 2n 2n ∑∑Y i ∑Y i
i-1
n
i
S B =∑
Y 2n ∑
i
n n
+∑=S A =SA +B -S B = - ∑
∑Y Y 2n 2 2n ∑
n
i
i
i-1 i i-1 i
n n n n
= =Y 2n ∑ ∑Y 2n
i
i i
i
n i n
∑y i +2∑y i )- =(2n -2 ∑
2n 2n
i
分解n - ∑∑y i 得到矩阵C :
n
加总最后一列,得到
n
i n - ∑∑y i =(n-1)y n +(n -2)y n -1+……y 2
n i n
∑y i +2∑y i )- S A =(2n -2 ∑
2n 2n
y +2y+···+ny n )- =12
2n n
··+ny n )-( ) G=2SA = (y 1+2y2+·
n n
参考资料:
1、 Sundrum.R.M,1990,Incom Distribution in Less Developed Counties, London and New
York:Routledge
2、 Cowell.F.A,2000,Measurement of Inequality, in Handbook of Income Distribution, eds. By
A.Atkirrson and F.Bourguignon, Northholland 3、 熊俊:《基尼系数估算方法的比较研究》;《财经问题研究》2003年1月第1期 4、 王文森:《基尼系数及推广应用》;《统计与预测》;2003年1月第1期
基尼系数的计算方法及数学推导
2001金融三班 袁源
摘要:本文归纳了基尼系数的四种计算方法:直接计算法、拟合曲线法、分组计算法和分解法,并进行了
数学推导和证明。在此基础上,文章比较了各种算法优缺点,分析了误差可能产生的环节。 关键词:洛伦茨曲线 基尼系数
一、洛伦茨曲线和基尼系数
1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。
图一
为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一个反映收入分配平等程度的指标,称为基尼系数(G )。在上图中,基尼系数定义为:
G= 式(1)
A+B
当A 为0时,基尼系数为0,表示收入分配绝对平等;当B 为0时,基尼系数为1,表示收入分配绝对不平等。基尼系数在0~1之间,系数越大,表示越不均等,系数越小,表示越均等。
二、基尼系数的计算方法
式(1)虽然是一个极为简明的数学表达式,但它并不具有实际的可操作性。为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索。在已有的研究成果中,主要有四种有代表性的估算方法,结合自己的计算,笔者将它们归纳为直接计算法、拟合曲线法、分组计算法和分解法。
1、直接计算法
直接计算法在基尼提出收入不平等的一种度量时,就已经给出了具体算法,而且这种算法并不依赖于洛伦茨曲线,它直接度量收入不平等的程度。定义
n n2 △=∑∑ Y j -Y i ∣/n, 0≤△≤2u 式(2) j=1 i=1∣
式中,△是基尼平均差,∣Y j -Y i ∣是任何一对收入样本差的绝对值,n 是样本容量,u 是收入均值。
定义
G=△/2u, 0≤G ≤1 式(3) 可以证明:G=△/2u=2S A (证明过程见附录一),而由式(1)G= SA / SA+B,S A+B=1/2,G=2SA , 因此,式(2)中定义的G 即为基尼系数,综合式(2)、(3),基尼系数的计算方法为: n nG= Y j -Y i ∣ 式(4) 2n u ∑∑
j=1 i=1∣
直接计算法只涉及居民收入样本数据的算术运算,很多学者认为理论上看,只要不存在来源于样本数
据方面的误差,就不存在产生误差的环节。实际上,在附录一证明过程当中将看到,直接计算法依然采用了以直代曲法计算面积,只不过这个过程在样本数据范围内达到了最小近似,其精确度直接取决于样本数据本身。因此,可以认为它不带任何误差的计算了样本数据的基尼系数值。
2、拟合曲线法
拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦茨曲线,得出曲线的函数表达式,然后用积分法求出B 的面积,计算基尼系数。通常是通过设定洛伦茨曲线方程,用回归的方法求出参数,再计算积分。例如,设定洛伦茨曲线的函数关系式为幂函数:
β
I=αP 式(5)
根据选定的样本数据,用回归法求出洛伦茨曲线,例如,α=m, β=n.求积分
S B =∫0mp n dp= 式(6)
n+1
1
计算
=1- G= 式(7)
n+1 A+BA+B
拟合曲线法的在两个环节容易产生谬误:一是拟合洛伦茨曲线,得出函数表达式的过程中,可能产生
误差;二是拟合出来的函数应该是可积的,否则就无法计算。
3、分组计算法
这种方法的思路有点类似用几何定义计算积分的方法,在X 轴上寻找n 个分点,将洛伦茨曲线下方的区域分成n 部分,每部分用以直代曲的方法计算面积,然后加总求出面积。分点越多,就越准确,当分点达到无穷大时,则为精确计算。
图二
假设分为n 组,每组的收入为Y i ,则每个部分P 的面积为:
i-1
i
式(8)
S P = Y 2n ∑
i
加总得到:
-S =1-2lim ∑ 式(9) G= S A+B S A+B k →∞ 2n ∑Y i
这是精确计算基尼系数的表达式,当分点n 个数有限时,定义:
y i = 式(10)
∑Y
i
n
i-1 i
得到近似表达式:
··+ny n )-( ) 式(11) G=2SA = (y 1+2y2+·
n n
(证明过程见附录二)
分组计算法不依赖于洛伦茨曲线的函数形式,但在以直代曲的环节会出现误差,增加分点的个数可以减少这种误差。
4、分解法
上述的计算方法的最终目的都在于求出基尼系数的值,而分解法则是在求出上述值的基础上,力图研究基尼系数的构成因素,除了得出总的基尼系数的信息之外,在计算过程中还能够获得分解部分内部的基尼系数值。另外,分解法求出基尼系数的过程一般都依赖于已有部分的基尼系数的值,从这个意义上说,分解法并不是独立计算基尼系数的方法,它更重要的意义在于对基尼系数的分解,即定义的各个不同基尼系数值之间的相互关系。
伦敦经济学院收入分配方法论专家Cowell 教授提出,基尼系数在不同人群组之间无法完全分解于尽。总体基尼系数除了包括各个组内差距之外,还应包括组间差距和相互作用项。公式为:
k W G +I+ε(f )G = ∑i i b i 式(12)
式中,G 是总体基尼系数,G i 是第i 组内部的基尼系数(i=1,2,…,n ),W i 是G i 的权数,I b 是组间的
差距指数,ε(f i )是相互作用项。ε(f i )是各个组之间收入分布的重叠程度。特别地,当各个组之间收入分布完全不重叠时,ε(f i )=0。
式(12)地意义在于形式化地表述了对总体基尼系数进行分解的思路和框架,但由于没有给出W i 、I b
和ε(f i )的具体计算方法,还不能用于基尼系数的计算。
经济学家Sundrum (1990)在他的《欠发达国家的收入分配》一书中介绍了一种对一国或地区基尼系数进行分解的方法,其数学公式为:
2
式(13) G=P1 u G 1+ P22+P1P 2︱ u 式中,G 表示总体基尼系数,G 1和G 2分别表示农村和城镇的基尼系数,P 1、P 2分别表示农村人口和城镇人口占总人口的比重,u 1、u 2、u 分别表示农村、城镇和总体的人均收入。
对比式(12)和式(13),可以发现式(13)是式(12)的一种具体运用,P 11和P 22可
k
为权重的∑W i G i ,P 1P 2︱︱则为组间差距指数I b 。值得注意的是式中和P 2以作为以P 1
没有ε(f i )项,意味着ε(f i )=0成立,因此这种算法隐含的假设条件是农村与城镇的收入分布完全不重叠。此外,采用这种计算方法还必须满足条件:在估算城乡内部的基尼系数时所用的居民收入数据的口径是相同或相近的。
这种方法会在可能在两个环节产生误差:一是用其他方法估计城乡各自的基尼系数G 1和G 2时,可能产生误差;二是城乡收入分布一般会在不同程度上重叠。
附录一:
证明:G=△/2u=2S A
n n
第一步,分解 ∑∑ Y j -Y i ∣
j=1 i=1∣
设将收入按从低到高排列Y
、Y 、……Y ,则上式可以分解为矩阵A :
将矩阵中各项加总得到: 2〔(n -1)Y n +(n -2)Y n -1+……+Y 2—(n -1)Y 1-(n -2)Y 2-……-Y n -1〕 =2〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕
第二步,计算 2
2n u
n 取样本均值u= =Y i
n
=
Y 2n 2u 2n ∑i
综上,第一步、第二步,得到 G = 〔(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1〕 n ∑Y
i
式(14) 第三步,计算S B
D
C
i -1 图三
如图四,计算每一部分面积S P
i-1
i
P
n A i -1
图四
B i
S = AB (AC +BD )= P
Y 2 2n ∑
i
i-1
n
i
S B =∑
Y 2n ∑
i
第四步,计算S A
n n n
=- ∑ S A =SA +B -S B =Y Y 2n ∑ 2 2n ∑
i
i
i-1 i i-1 i
n n
分解n ∑Y i -∑ ∑Y i +∑Y i 得到矩阵B
i-1 i
i-1
i
n Y -∑ n ∑Y +∑Y =(n -1)Y +(n -2)Y +……+Y —(n -1)Y -(n -2)Y -……-n ∑i i i n n -1212
Y n -1=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1-n )Y 2-(n -1)Y 1
n n 〔=(n -1)Y n +(n -3)Y n -1+(n -5)Y n -2……-(1S A = Y 2n ∑ Y 2n ∑
i
i
i-1 i
-n )Y 2-(n -1)Y 1〕 式(15)
比较式(14)和式(15)可得G=△/2u=2S A 。
附录二:
··+ny n )-( ) 证明:当分点个数n 有限时,G=2SA = (y 1+2y2+·
n n
Y 定义:y i = Y ∑
i
i-1 i ii-1
S P =AB (AC +BD )= = Y 2 i 2n 2n ∑∑Y i ∑Y i
i-1
n
i
S B =∑
Y 2n ∑
i
n n
+∑=S A =SA +B -S B = - ∑
∑Y Y 2n 2 2n ∑
n
i
i
i-1 i i-1 i
n n n n
= =Y 2n ∑ ∑Y 2n
i
i i
i
n i n
∑y i +2∑y i )- =(2n -2 ∑
2n 2n
i
分解n - ∑∑y i 得到矩阵C :
n
加总最后一列,得到
n
i n - ∑∑y i =(n-1)y n +(n -2)y n -1+……y 2
n i n
∑y i +2∑y i )- S A =(2n -2 ∑
2n 2n
y +2y+···+ny n )- =12
2n n
··+ny n )-( ) G=2SA = (y 1+2y2+·
n n
参考资料:
1、 Sundrum.R.M,1990,Incom Distribution in Less Developed Counties, London and New
York:Routledge
2、 Cowell.F.A,2000,Measurement of Inequality, in Handbook of Income Distribution, eds. By
A.Atkirrson and F.Bourguignon, Northholland 3、 熊俊:《基尼系数估算方法的比较研究》;《财经问题研究》2003年1月第1期 4、 王文森:《基尼系数及推广应用》;《统计与预测》;2003年1月第1期