第12卷 第2期重庆工业管理学院学报1998年4月Vo l. 12 No. 2Jo urnal of Cho ng qing Institute of T echno logy M anag em ent Apr. 1998
虚拟变量在线性回归模型中的应用
章 晓 英
(重庆工业管理学院经济学系 重庆400050)
摘要 借助虚拟变量, 在线性回归模型中引入品质标志, 使模型更完善; 运用虚拟变量改变回归直线的截距、斜率; 虚拟变量既可作自变量, 又可作因变量; 灵活应用虚拟变量可以使许多复杂的问题简单化。
关键词 虚拟变量 自变量 因变量 线性回归模型
0 引言
在回归分析中, 因变量除了受到通常的量变量的影响外, 有时还会受到质变量的影响。质变量不是数量的反映, 而是反映某种本质或属性, 在统计上称为品质标志, 如性别、民族、季节、战争等。比如研究性别与收入的关系, 战时和平时个人收入与个人储蓄的关系, 销售量与季节的关系等等。
1 虚拟变量的实质
虚拟变量(Dummy V ariable ) , 又称虚设变量、名义变量或哑变量, 是量化了的质变量, 通常取值为0或
1。现在我们来研究收入(y i ) 与性别的关系:定义虚拟变量D i =0时表示女性, D i =1时表示男性, 即:
D i =
建立线性回归模型:1 (男性) 0 (女性) y i = + D i + i
其中, y i 代表收入, 、 是总体回归参数, 可以通过检验假设H 0: =0来说明收入与性别是否有i 是误差项。
关。在 ≠0时, 说明收入与性别有关, 借助D i 、y i 可分解为两个式子:
y i = + (男性)
(女性)
研究战时和平时个人储蓄(S i ) 与个人收入(y i ) 的关系。
设 平时S i = 1+ y i + i
战时S i = 2+ y i + i
定义虚拟变量D i :
D i =1 (战时)
0 (平时)
则回归模型变为: S i = 1+( 2- 1) D i + y i + i
可见, 引入虚拟变量可使线性回归模型变得更复杂, 但对问题的描述更简明, 一个方程能达到两个方程的作用, 而且接近现实。在引入虚拟变量时应注意, 如果一个属性有m 个类型, 只引入(m -1) 个虚拟变量, 就会产生多重共线性。若在上例中引入两个虚拟变量:
D 1i =1 (平时)
0 (战时) D 2i =1 (平时)
0 (战时)
章晓英:虚拟变量在线性回归模型中的应用
回归模型为:S i = 1D 1i + 2D 2i + y i + i ・85・
则有D 1i +D 2i =1, 是典型的多重共线性, 不能简单使用最小二乘法。
再看一个有多个虚拟变量的例子, 研究高校教师收入(y i ) 与教龄(X i ) 的关系时, 考虑教师的学历。把教师学历分为本科、硕士、博士, 引入两个虚拟变量:
D 1i =1 (学历为硕士)
0 (其它) D 2i =1 (学历为博士)
0 (其它)
当D 1i =D 2i =0时, 代表学历为本科。
则有:
可分解为下面三个方程:
0+ x i + i
y i =(本科) ( 0+ 1) + x i + i (硕士)
( 0+ 2) + x
i + i (博士) y i = 0+ 1D 1i + 2D 2i + X i + i 2> 1>0
2 运用虚拟变量改变回归直线的截距
前面两例就属于这种情况, 这里再举一例。某企业工人分技工和普通工, 研究工人收入(y i ) 与劳动量(x i ) 的关系, 如图1。从这两条直线形状来看, 它们趋势都相同, 是两条平行的, 但截距不同的直线, 截距不同是因为技工和普通工的基本工资不同。
图1 截距不同斜率相同时工人
收入与劳动量的关系
定义虚拟变量:D i =1 (技工)
0 (普通工)
建立线性回归模型: y i = + 1D i + 2x i + i ( 1>0)
即: + 2x i + i (普通工)
从上式可看到, + 1, 另一直线截距为 , 因此, 用一个方程就可以表示截距不同的两条直线。y i =( + 1) + 2x i + i (技工)
3 运用虚拟变量改变回归直线的斜率
仍研究工人收入(y i ) 与劳动量(x i ) 的关系, 现在假设技工与普通工基本工资一样, 但单位劳动量的报酬不同。两条直线截距相同, 斜率不同, 见图2。
・86・重庆工业管理学院学报
图2 截距相同斜率不同时工人
收入与劳动量的关系
定义虚拟变量:D i =1 (技工) , 这时的线性回归模型要复杂些, 形式如下:0 (普通工)
y i = + 1x i + 2(D i x i ) + i
+( 1+ 2) x i + i (技工)
+ 1x i + i (普通工) 这样, 我们可以用上面的公式表示以下两种情况:y i =
由此可见, 两条直线斜率不同, 上面一条斜率是( 1
+ 2) , 而较低直线斜率为 1。
所以, 我们同样可用含有虚拟变量的一个方程就表示了斜率不同的两种情况。
4 运用虚拟变量同时改变回归直线的斜率和截距
对前面谈到的两种情况, 在实际工作中经常同时发生, 技工比起普通工, 不但基本工资较高, 而且单位劳动量的报酬也会高一些。又如教授的工资高于讲师, 教授的课时费有时也比讲师高。图3就是这一类现象的表现。
图3 截距和斜率都不同时工人
收入与劳动量的关系
1 (技工) 定义虚拟变量:D i =0 (普通工)
回归模型如下: y i = + 1D i + 2x i + 3(D i x i ) + i
分解为以下两种情况:
+ i (技工)
)
章晓英:虚拟变量在线性回归模型中的应用
这样, 回归直线的斜率和截距都发生变化。・87・
5 折线回归
实际中经常遇到如图4、图5所示的分段式折线回归,
也许还有更复杂的折线回归。
图4 两段折线回归图5 三段折线回归
以工人收入(y i ) 与劳动量(x i ) 的关系为例, 当工人的劳动量超过规定任务后, 其劳动报酬就会提高。这种情形下, 我们仍可引入虚拟变量。以图4为例, 设虚拟变量D i =
中所示折线进行回归分析:y i = + 1x i + 2(x i -x 0) D i + i 上述方程可分解为以下两种情形:
y i =( - 2x 0) +( 1+ 2) x i + i (x i ≥x 0)
+ 1x i + i (x i ≤x 0) 1 (x i ≥x 0) 0 (x i ≤x 0) , 我们可用下面这个方程对图
当x =x 0时两方程在分段点值是相等的。
如果是图5情形, 需定义两个虚拟变量:
D 1i =1 (x i ≥x 10)
0 (其它) D 2i =1 (x i ≥X 20)
0 (其它)
回归方程为: y i = + 1x i + 2(x i -x 10) D 1i + 3(x i -x 20) D 2i + i
它表示了三种情况。
讲到这里, 需要补充一点, 引入虚拟变量的意义除了第1部分所述以外, 还在于:如果直接对分解后的方程进行回归, 它们是多个单独方程, 相当于进行多次回归, 不同方程就有不同的随机扰动项 而实际上, 对同i 。
类现象随机因素的影响都假设是一样的, 对多个方程进行回归就不能保证这一点。
6 虚拟变量作为因变量的情况
虚拟变量既可作为自变量, 又可作为因变量用。
如果我们需要研究哪些人能够就业, 结果只有两个:可以就业, 或不可以就业。定义虚拟变量
D i =1 (就业)
0 (失业)
以S i 表示文化程度, A i 表示年龄, 回归方程如下:D i = + 1S i + 2A i + i
作为因变量, 不论D i 的方程式多么复杂, 自变量如何取值, D i 只能有两种结果, 要么是1, 要么是0。这种情况下, 就不能简单地用最小二乘法进行参数估计, 也就是说, 当虚拟变量D i 作因变量时, 不能直接使用最小二乘法进行估计。
・88・重庆工业管理学院学报
参 考 文 献
1 李卓立. 实用经济计量学. 北京:清华大学出版社, 1987
2 刘振亚. 计量经济学教程. 北京:中国人民大学出版社, 1997
3 张寿, 于清文. 计量经济学. 上海:上海交通大学出版社, 1984
Application of Duramy Variables in Linear
Regression MOdel
Zhang Xiao -ying
ABSTRACT Examples in this paper show that the d ummy variab le can draw some quality mar kers w hich is im possib le to b e quantized into th e linear regres sion model. Als o, it can change the intercept an d s lope of the regr ess ion line. Dummy variable can b e u sed as indepen dent variable as w ell as dependent var iable. the proper application of dum my variab le can s implify many complicated pr ob lem s.
KEY WORDS dumm y variab le; linear regr ess ion model; independent variak le; dependen t var iable
(责任编辑 黄忠国)
各地的实践经验表明, 积极发展规模经营, 使生产效率得以提高, 粮食生(上接第77页) 实际受惠并不明显。
产的整体效益也随之大大提高。当然, 在多数地区, 由于农业剩余劳动力转移困难, 规模经营还难以实施, 但在长江上游经济较发达的地区, 随着农业剩余劳动力的大量转移, 应积极鼓励种田能手承包粮田, 发展规模经营。这是扭转经济发达地区粮食生产萎缩的根本出路。
3. 6 增强支农意识, 控制长江上游地区人口总量。当前, 随着经济的快速发展, 而粮食生产却逐渐萎缩, 这已成了一种较为普遍的现象。实践表明, 这种局面是完全可以扭转的, 尤其是在长江上游经济发达地区, 如四川省的成都平原地区, 随着经济实力的增强, 完全有能力增加投入, 提高粮食生产的现代化水平。但关键是要增强地方领导干部的支农意识, 使他们能够自觉地以二、三产业“反哺”农业, 尤其是粮食生产, 以实现经济与粮食同步增长。长江上游地区长期以来粮食生产形势严峻, 是人口增加、超环境容量的结果, 走出“人口压力→陡坡垦殖→恶化环境→生产效益降低→经济困难”怪圈的根本出路, 在于控制长江上游地区人口总量。长江上游地区地形破碎, 地块狭小、分散, 生态环境脆弱, 扩大耕地后备资源非常有限, 人口绝对不可以在有限的土地资源下无限制地增长。
Countermeasures for the Continuous Growth of Rice
Production in the Upper Reaches of the Yangtze River
M a Zhi -Li
ABSTRACT By analysing the pro blems and the m ain restrictive factors of grain production in the upper reaches of the y ang tze r iv er , the author sets for th some m easures to keep the gr ain prochuction there ino reasing steadily.
KEY WORDS the upper reaches of the y ang tze river ; grain pr oduction, developing measures
(责任编辑 彭 熙)
第12卷 第2期重庆工业管理学院学报1998年4月Vo l. 12 No. 2Jo urnal of Cho ng qing Institute of T echno logy M anag em ent Apr. 1998
虚拟变量在线性回归模型中的应用
章 晓 英
(重庆工业管理学院经济学系 重庆400050)
摘要 借助虚拟变量, 在线性回归模型中引入品质标志, 使模型更完善; 运用虚拟变量改变回归直线的截距、斜率; 虚拟变量既可作自变量, 又可作因变量; 灵活应用虚拟变量可以使许多复杂的问题简单化。
关键词 虚拟变量 自变量 因变量 线性回归模型
0 引言
在回归分析中, 因变量除了受到通常的量变量的影响外, 有时还会受到质变量的影响。质变量不是数量的反映, 而是反映某种本质或属性, 在统计上称为品质标志, 如性别、民族、季节、战争等。比如研究性别与收入的关系, 战时和平时个人收入与个人储蓄的关系, 销售量与季节的关系等等。
1 虚拟变量的实质
虚拟变量(Dummy V ariable ) , 又称虚设变量、名义变量或哑变量, 是量化了的质变量, 通常取值为0或
1。现在我们来研究收入(y i ) 与性别的关系:定义虚拟变量D i =0时表示女性, D i =1时表示男性, 即:
D i =
建立线性回归模型:1 (男性) 0 (女性) y i = + D i + i
其中, y i 代表收入, 、 是总体回归参数, 可以通过检验假设H 0: =0来说明收入与性别是否有i 是误差项。
关。在 ≠0时, 说明收入与性别有关, 借助D i 、y i 可分解为两个式子:
y i = + (男性)
(女性)
研究战时和平时个人储蓄(S i ) 与个人收入(y i ) 的关系。
设 平时S i = 1+ y i + i
战时S i = 2+ y i + i
定义虚拟变量D i :
D i =1 (战时)
0 (平时)
则回归模型变为: S i = 1+( 2- 1) D i + y i + i
可见, 引入虚拟变量可使线性回归模型变得更复杂, 但对问题的描述更简明, 一个方程能达到两个方程的作用, 而且接近现实。在引入虚拟变量时应注意, 如果一个属性有m 个类型, 只引入(m -1) 个虚拟变量, 就会产生多重共线性。若在上例中引入两个虚拟变量:
D 1i =1 (平时)
0 (战时) D 2i =1 (平时)
0 (战时)
章晓英:虚拟变量在线性回归模型中的应用
回归模型为:S i = 1D 1i + 2D 2i + y i + i ・85・
则有D 1i +D 2i =1, 是典型的多重共线性, 不能简单使用最小二乘法。
再看一个有多个虚拟变量的例子, 研究高校教师收入(y i ) 与教龄(X i ) 的关系时, 考虑教师的学历。把教师学历分为本科、硕士、博士, 引入两个虚拟变量:
D 1i =1 (学历为硕士)
0 (其它) D 2i =1 (学历为博士)
0 (其它)
当D 1i =D 2i =0时, 代表学历为本科。
则有:
可分解为下面三个方程:
0+ x i + i
y i =(本科) ( 0+ 1) + x i + i (硕士)
( 0+ 2) + x
i + i (博士) y i = 0+ 1D 1i + 2D 2i + X i + i 2> 1>0
2 运用虚拟变量改变回归直线的截距
前面两例就属于这种情况, 这里再举一例。某企业工人分技工和普通工, 研究工人收入(y i ) 与劳动量(x i ) 的关系, 如图1。从这两条直线形状来看, 它们趋势都相同, 是两条平行的, 但截距不同的直线, 截距不同是因为技工和普通工的基本工资不同。
图1 截距不同斜率相同时工人
收入与劳动量的关系
定义虚拟变量:D i =1 (技工)
0 (普通工)
建立线性回归模型: y i = + 1D i + 2x i + i ( 1>0)
即: + 2x i + i (普通工)
从上式可看到, + 1, 另一直线截距为 , 因此, 用一个方程就可以表示截距不同的两条直线。y i =( + 1) + 2x i + i (技工)
3 运用虚拟变量改变回归直线的斜率
仍研究工人收入(y i ) 与劳动量(x i ) 的关系, 现在假设技工与普通工基本工资一样, 但单位劳动量的报酬不同。两条直线截距相同, 斜率不同, 见图2。
・86・重庆工业管理学院学报
图2 截距相同斜率不同时工人
收入与劳动量的关系
定义虚拟变量:D i =1 (技工) , 这时的线性回归模型要复杂些, 形式如下:0 (普通工)
y i = + 1x i + 2(D i x i ) + i
+( 1+ 2) x i + i (技工)
+ 1x i + i (普通工) 这样, 我们可以用上面的公式表示以下两种情况:y i =
由此可见, 两条直线斜率不同, 上面一条斜率是( 1
+ 2) , 而较低直线斜率为 1。
所以, 我们同样可用含有虚拟变量的一个方程就表示了斜率不同的两种情况。
4 运用虚拟变量同时改变回归直线的斜率和截距
对前面谈到的两种情况, 在实际工作中经常同时发生, 技工比起普通工, 不但基本工资较高, 而且单位劳动量的报酬也会高一些。又如教授的工资高于讲师, 教授的课时费有时也比讲师高。图3就是这一类现象的表现。
图3 截距和斜率都不同时工人
收入与劳动量的关系
1 (技工) 定义虚拟变量:D i =0 (普通工)
回归模型如下: y i = + 1D i + 2x i + 3(D i x i ) + i
分解为以下两种情况:
+ i (技工)
)
章晓英:虚拟变量在线性回归模型中的应用
这样, 回归直线的斜率和截距都发生变化。・87・
5 折线回归
实际中经常遇到如图4、图5所示的分段式折线回归,
也许还有更复杂的折线回归。
图4 两段折线回归图5 三段折线回归
以工人收入(y i ) 与劳动量(x i ) 的关系为例, 当工人的劳动量超过规定任务后, 其劳动报酬就会提高。这种情形下, 我们仍可引入虚拟变量。以图4为例, 设虚拟变量D i =
中所示折线进行回归分析:y i = + 1x i + 2(x i -x 0) D i + i 上述方程可分解为以下两种情形:
y i =( - 2x 0) +( 1+ 2) x i + i (x i ≥x 0)
+ 1x i + i (x i ≤x 0) 1 (x i ≥x 0) 0 (x i ≤x 0) , 我们可用下面这个方程对图
当x =x 0时两方程在分段点值是相等的。
如果是图5情形, 需定义两个虚拟变量:
D 1i =1 (x i ≥x 10)
0 (其它) D 2i =1 (x i ≥X 20)
0 (其它)
回归方程为: y i = + 1x i + 2(x i -x 10) D 1i + 3(x i -x 20) D 2i + i
它表示了三种情况。
讲到这里, 需要补充一点, 引入虚拟变量的意义除了第1部分所述以外, 还在于:如果直接对分解后的方程进行回归, 它们是多个单独方程, 相当于进行多次回归, 不同方程就有不同的随机扰动项 而实际上, 对同i 。
类现象随机因素的影响都假设是一样的, 对多个方程进行回归就不能保证这一点。
6 虚拟变量作为因变量的情况
虚拟变量既可作为自变量, 又可作为因变量用。
如果我们需要研究哪些人能够就业, 结果只有两个:可以就业, 或不可以就业。定义虚拟变量
D i =1 (就业)
0 (失业)
以S i 表示文化程度, A i 表示年龄, 回归方程如下:D i = + 1S i + 2A i + i
作为因变量, 不论D i 的方程式多么复杂, 自变量如何取值, D i 只能有两种结果, 要么是1, 要么是0。这种情况下, 就不能简单地用最小二乘法进行参数估计, 也就是说, 当虚拟变量D i 作因变量时, 不能直接使用最小二乘法进行估计。
・88・重庆工业管理学院学报
参 考 文 献
1 李卓立. 实用经济计量学. 北京:清华大学出版社, 1987
2 刘振亚. 计量经济学教程. 北京:中国人民大学出版社, 1997
3 张寿, 于清文. 计量经济学. 上海:上海交通大学出版社, 1984
Application of Duramy Variables in Linear
Regression MOdel
Zhang Xiao -ying
ABSTRACT Examples in this paper show that the d ummy variab le can draw some quality mar kers w hich is im possib le to b e quantized into th e linear regres sion model. Als o, it can change the intercept an d s lope of the regr ess ion line. Dummy variable can b e u sed as indepen dent variable as w ell as dependent var iable. the proper application of dum my variab le can s implify many complicated pr ob lem s.
KEY WORDS dumm y variab le; linear regr ess ion model; independent variak le; dependen t var iable
(责任编辑 黄忠国)
各地的实践经验表明, 积极发展规模经营, 使生产效率得以提高, 粮食生(上接第77页) 实际受惠并不明显。
产的整体效益也随之大大提高。当然, 在多数地区, 由于农业剩余劳动力转移困难, 规模经营还难以实施, 但在长江上游经济较发达的地区, 随着农业剩余劳动力的大量转移, 应积极鼓励种田能手承包粮田, 发展规模经营。这是扭转经济发达地区粮食生产萎缩的根本出路。
3. 6 增强支农意识, 控制长江上游地区人口总量。当前, 随着经济的快速发展, 而粮食生产却逐渐萎缩, 这已成了一种较为普遍的现象。实践表明, 这种局面是完全可以扭转的, 尤其是在长江上游经济发达地区, 如四川省的成都平原地区, 随着经济实力的增强, 完全有能力增加投入, 提高粮食生产的现代化水平。但关键是要增强地方领导干部的支农意识, 使他们能够自觉地以二、三产业“反哺”农业, 尤其是粮食生产, 以实现经济与粮食同步增长。长江上游地区长期以来粮食生产形势严峻, 是人口增加、超环境容量的结果, 走出“人口压力→陡坡垦殖→恶化环境→生产效益降低→经济困难”怪圈的根本出路, 在于控制长江上游地区人口总量。长江上游地区地形破碎, 地块狭小、分散, 生态环境脆弱, 扩大耕地后备资源非常有限, 人口绝对不可以在有限的土地资源下无限制地增长。
Countermeasures for the Continuous Growth of Rice
Production in the Upper Reaches of the Yangtze River
M a Zhi -Li
ABSTRACT By analysing the pro blems and the m ain restrictive factors of grain production in the upper reaches of the y ang tze r iv er , the author sets for th some m easures to keep the gr ain prochuction there ino reasing steadily.
KEY WORDS the upper reaches of the y ang tze river ; grain pr oduction, developing measures
(责任编辑 彭 熙)