第14卷 第11期2012年11月天津职业院校联合学报
JournalofTianinVocationalInstitutes NO.11Vol.14
Nov.2012
SPSS在数学建模中的应用实例
周 静
()天津冶金职业技术学院,天津 300400
摘 要:广告投入等之间的关系,利用SPSS18.0进行回归分析, 为研究某公司生产的牙膏销售量与销售价格、建立牙膏的销售量与其它因素的回归模型,说明SPSS在解决数学建模中预测问题时更具优越性。
关键词:回归分析;数学建模PSS18.0; S
)中图分类号:O29 文献标识码:A 文章编号:1673-582X(201211-0093-04
在数学建模中,由现实数据建立模型,通常采用的方法是回归分析。回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,然后根据模型参数来评价该模型的拟合情况,并可根据自变量作进一步预测。较之Matlab数学软件中的回归分析功能,SPSS统计软件的优势在于其图形交互式用户界面更易于操作,且数据结果可读性强、容易导出。下面,以某公司生产的牙膏销售量为例,利用建立牙膏的销售量与其它因素的回归模型,说明SSPSS18.0进行回归分析,PSS在解决数学建模中预测问题时更具优越性。
一、数据来源
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费调查,
用下的销售量。为此销售部的研究人员收集了过去3每个销售周期为4周)公司生产的牙0个销售周期(膏的销售量、销售价格、投入的广告费用,以及其他厂家生产同类牙膏市场的平均销售价格。
二、数据分析
因消费者在购买牙膏时,更关心的是不同品牌之间的价格差,所以在研究各个因素对销售量的影响时,采用价格差代替公司的销售价格和其他厂家平均价格作为影响因素之一。因此,将价格差和广告费用作为自变量,牙膏的销售量作为因变量,采用SPSS18.0中文版进行数据分析。
(一)绘制散点图
,打开数据文件窗口的对话框,在菜单栏依次单击“图形”旧对话框”散点/点状”选择“简单分→“→“,布”并分别将广告费用和价格差作为自变量选入X轴,销售量作为因变量选入Y轴,绘制散点图
。
图1 广告费用与销售量的散点图
图2 价格差与销售量的散点图
收稿日期:2012-03-23
,作者简介:周静(天津市人,天津冶金职业技术学院讲师,从事应用数学方面的研究。1983-)
·93·
二)曲线估计 (
从散点图来看,价格差与销售量呈现较明显的线性趋势,而广告费用和销售量呈现较明显的曲线趋势,但要判定两个变量更适合于哪个模型,则需要进行曲线估计。在菜单栏依次单击“分析”回归”→“→“,、曲线估计”分别将广告费用和价格差选入自变量,销售量选入因变量,在模型选项组勾选“线性曲线”“二次项曲线”和“立方曲线”三种曲线回归模型。
表1 广告费用与销售量曲线估计的模型摘要
模型线性二次项立方
2
R
F 92.32469.81469.570
p.000 .000 .000
常数1.649 25.10917.257
b11.043-6.559-2.757
b2.610.000
b3
.767 .838 .837
.032
三个曲线估计的回归模型中,二次项曲线模型与立方曲线模型的拟合度显著优于线 由表1可以看出,
2
其中拟合度最好的是二次项曲线模型,其R值为0.并且从F值来看,二次项曲线模型比立方性模型,838,2
曲线模型拟合的更为显著。因此,选择二次项曲线模型最为理想,即y=β其中xxx+ε,0+11+211为ββ
广告费用,ε为随机误差,y为销售量,i为回归系数。β
表2 价格差与销售量曲线估计的模型摘要
模型线性二次项立方
2
R
F 106.30355.48835.916
p.000 .000 .000
常数7.814 7.804 7.824
b12.6653.4843.685
b2-1.728-3.674
b3
.792 .804 .806
2.802
三个模型的拟合度基本相同,其中拟合度最好的是立方曲线模型,其次是二次项曲 由表2可以看出,
但立方曲线模型的参数比另外两种模型的参数多,更为复杂。若从F值来看,线性模型拟合的最线模型,
为显著。但以上的结果还不足以作出判断,还需要对各模型系数作显著性检验。重复上述操作,并且在曲。显示AN线估计对话框勾选“OVE表格”
表3 价格差与销售量的曲线估计的模型系数
模型
线性
价格差常数价格差
二次项
价格差**2常数
价格差
立方
价格差**2价格差**3
常数
回归系数2.6657.8143.484-1.728 7.8043.685-3.674 2.802 7.824
标准差.258 .080 .667 1.300.079 .832 4.8706.749.093
t 10.31097.8185.226-1.32998.6074.427-.754.41583.974
p.000.000.000.195.000.000.457.681.000
对三个模型系数进行显著性检验后,只有线性模型的系数均达到显著水平,而另外 由表3可以看出,
选择线性模型最为理想,即y=β其中x两种模型系数的p值至少有一个大于0.05。因此,xε,0+12+2为β价格差,ε为随机误差,y为销售量,i为回归系数。β
三、模型建立与求解(一)模型一
由曲线估计知,价格差与销售量适合线性模型,而广告费用与销售量更适合二次项曲线模型。但因二所以可将广告费用的平方作为一个新的自变量引入,从而采用多元线性回归次函数可以转化为线性函数,
分析,建立价格差、广告费用、广告费用的平方与牙膏的销售量的回归模型一,即y=βxxx0+11+22+33βββ其中xxx+ε,ε为随机误差,y为销售量,1为广告费用,2为价格差,3为广告费用的平方,i为回归系数。β
多元回归分析之前,需引入新的变量。从“转换”菜单中,打开计算变量对话框,输入新的目标变量名,即广告费用的平方,然后在数字表达式中编辑函数,生成新的变量。接下来在“分析”菜单中,打开线性回
·94·
归对话框,将广告费用、价格差和广告费用的平方同时选为自变量,将销售量选为因变量;单击“统计量”按。钮,在弹出的对话框中勾选“置信区间”
表4 回归模型一的模型摘要
模型
广告费用、价格差和广告费用的平方
R .952
2
RF 82.941
p.000
.905
以广告费用、广告费用的平方和价格差共同作为自变量时,能显著预测销售量,其联 由表4可以看出,
合解释9因此模型一从整体上来看是可用的。0.5%的变异量,
表5 回归模型一的模型系数
模型常数价格差广告费用广告费用的平方
回归系数17.324 1.307 -3.696.349
差分的95%置信区间下限5.728 .683 -7.499.038
上限28.9211.931.108.659
t 3.0714.305-1.9972.306
p.005 .000.056.029
模型一的回归方程为y=1广告7.324-3.696x1.307x0.349x 由表5可知,ε。该模型显示,1+2+3+费用对销售量的影响不太显著,但广告费用的平方对销售量的影响是显著的,因此将广告05,p值大于0.费用作为回归变量仍保留在模型中。
(二)模型二
尽管模型一从整体来看较为理想,但表5显示的置信区间[包含零点,这说明广告费-7.499,0.108]用对销售量的影响导致该模型不稳定,还需要进一步改进。模型一中,广告费用和价格差对于销售量的影响是相互独立的,而由现实经验可知,广告费用和价格差之间的交互作用也可能会影响牙膏的销售量。
考察变量间的交互作用,须先对变量作定性分析。
若变量均为分类变量,则采用方差分析来检验自变量对因变量的影响以及各自变量间的交互作用;若变量均为连续变量,则采用在回归方程中纳入变量的乘积项,通过检验其回归系数的显著性来判断变量间如果回归系数为正,则变量间存在正交互作用,如果回归系数为负,则变量间存在负交是否存在交互作用,
互作用;若变量包含分类变量和连续变量,可将分类变量转换为虚拟变量后,当成连续变量再进行回归分析。
4
考虑到广告费用和价格差均为连续变量,因此采用在回归方程中纳入二者的乘积x来代表广告费用
和价格差的交互作用,记为广告费用×价格差。具体操作如前,并在线性回归对话框中,单击“绘制”按钮,“在弹出的对话框中将“选入X轴,选入Y轴,绘制标准化残差的散点图,同时勾选PRED”RESID”*Z*S“,直方图”绘制标准化残差的频数分布图。
表6 回归模型二的模型摘要
模型
广告费用、价格差、广告费用的平方、广告费用×价格差
R .960
2
R
F 72.777
p.000
.921
表7 回归模型二的模型系数
模型常数广告费用的平方广告费用×价格差
广告费用价格差
回归系数29.113 .671 -1.478-7.60811.134
t 3.8903.312-2.215-3.0812.504
p.001 .003.036.005.019
差分的95%置信区间下限13.701 .254 -2.852-12.6931.978
上限44.5251.089-.104-2.52320.291
再引入广告费用×价格差后,联合解释9较模型一有所提高,并且所2.1%的变异量, 由表6和表7知,
有置信区间均不含零点,这说明模型二较模型一有所改进,更符合实际。模型二的回归方程为y=29.113
·95·
其中x608x11.134x0.671x1.478xxx-7.ε,1+2+3-4+1为广告费用,2为价格差,3为广告费用的平方,
即广xx1.478,ε为随机误差。表7还显示,y为销售量,4为广告费用×价格差,4的回归系数估计值为-可以较少地依赖广告投入的增加来提高销售量;当价告费用和价格差存在负交互作用。当价格差较大时,则需要投入较大的广告费用来提高销售量
。格差较小时,
由图3可以看出,标准化残差呈正态分布。图4显示,各点围绕残差等于0的直线上下随机分布,说明当前的回归模型对原始数据拟合情况良好。
参考文献:
[]姜启源,谢金星,叶俊.数学模型[北京:高等教育出版社,1M].2003.
[]———相关分析与回归分析[]()张苏江,陈庆波.数据统计分析软件S五)畜牧与医,2PSS的应用(J.2003,09.
图3 残差的直方图
图4 残差的散点图
AlicationExamlesofSPSSinMathematicalModelin pppg
ZHOUJin g
()Tianin MetalluricalVocationalTechnoloCollee,Tianin,China300400 jggy gj
:,AbstractInthestudoftherelationshiamonsalesvolumeandtheadvertisininvestrice -ypggp
,mentofthetoothasteinacertaincomanreressionanalsisbSPSS18.0ismadeandthere -ppygyy ressionmodelofthetoothastesalesandotherfactorsisestablishedtomakeastatementthat pg
redictedroblems.SPSShassuerioritinsolvinmathematicalmodelin pppygg
:;mKewordsSPSS18.0;reressionanalsisathematicalmodelin ygyg
·96·
第14卷 第11期2012年11月天津职业院校联合学报
JournalofTianinVocationalInstitutes NO.11Vol.14
Nov.2012
SPSS在数学建模中的应用实例
周 静
()天津冶金职业技术学院,天津 300400
摘 要:广告投入等之间的关系,利用SPSS18.0进行回归分析, 为研究某公司生产的牙膏销售量与销售价格、建立牙膏的销售量与其它因素的回归模型,说明SPSS在解决数学建模中预测问题时更具优越性。
关键词:回归分析;数学建模PSS18.0; S
)中图分类号:O29 文献标识码:A 文章编号:1673-582X(201211-0093-04
在数学建模中,由现实数据建立模型,通常采用的方法是回归分析。回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,然后根据模型参数来评价该模型的拟合情况,并可根据自变量作进一步预测。较之Matlab数学软件中的回归分析功能,SPSS统计软件的优势在于其图形交互式用户界面更易于操作,且数据结果可读性强、容易导出。下面,以某公司生产的牙膏销售量为例,利用建立牙膏的销售量与其它因素的回归模型,说明SSPSS18.0进行回归分析,PSS在解决数学建模中预测问题时更具优越性。
一、数据来源
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费调查,
用下的销售量。为此销售部的研究人员收集了过去3每个销售周期为4周)公司生产的牙0个销售周期(膏的销售量、销售价格、投入的广告费用,以及其他厂家生产同类牙膏市场的平均销售价格。
二、数据分析
因消费者在购买牙膏时,更关心的是不同品牌之间的价格差,所以在研究各个因素对销售量的影响时,采用价格差代替公司的销售价格和其他厂家平均价格作为影响因素之一。因此,将价格差和广告费用作为自变量,牙膏的销售量作为因变量,采用SPSS18.0中文版进行数据分析。
(一)绘制散点图
,打开数据文件窗口的对话框,在菜单栏依次单击“图形”旧对话框”散点/点状”选择“简单分→“→“,布”并分别将广告费用和价格差作为自变量选入X轴,销售量作为因变量选入Y轴,绘制散点图
。
图1 广告费用与销售量的散点图
图2 价格差与销售量的散点图
收稿日期:2012-03-23
,作者简介:周静(天津市人,天津冶金职业技术学院讲师,从事应用数学方面的研究。1983-)
·93·
二)曲线估计 (
从散点图来看,价格差与销售量呈现较明显的线性趋势,而广告费用和销售量呈现较明显的曲线趋势,但要判定两个变量更适合于哪个模型,则需要进行曲线估计。在菜单栏依次单击“分析”回归”→“→“,、曲线估计”分别将广告费用和价格差选入自变量,销售量选入因变量,在模型选项组勾选“线性曲线”“二次项曲线”和“立方曲线”三种曲线回归模型。
表1 广告费用与销售量曲线估计的模型摘要
模型线性二次项立方
2
R
F 92.32469.81469.570
p.000 .000 .000
常数1.649 25.10917.257
b11.043-6.559-2.757
b2.610.000
b3
.767 .838 .837
.032
三个曲线估计的回归模型中,二次项曲线模型与立方曲线模型的拟合度显著优于线 由表1可以看出,
2
其中拟合度最好的是二次项曲线模型,其R值为0.并且从F值来看,二次项曲线模型比立方性模型,838,2
曲线模型拟合的更为显著。因此,选择二次项曲线模型最为理想,即y=β其中xxx+ε,0+11+211为ββ
广告费用,ε为随机误差,y为销售量,i为回归系数。β
表2 价格差与销售量曲线估计的模型摘要
模型线性二次项立方
2
R
F 106.30355.48835.916
p.000 .000 .000
常数7.814 7.804 7.824
b12.6653.4843.685
b2-1.728-3.674
b3
.792 .804 .806
2.802
三个模型的拟合度基本相同,其中拟合度最好的是立方曲线模型,其次是二次项曲 由表2可以看出,
但立方曲线模型的参数比另外两种模型的参数多,更为复杂。若从F值来看,线性模型拟合的最线模型,
为显著。但以上的结果还不足以作出判断,还需要对各模型系数作显著性检验。重复上述操作,并且在曲。显示AN线估计对话框勾选“OVE表格”
表3 价格差与销售量的曲线估计的模型系数
模型
线性
价格差常数价格差
二次项
价格差**2常数
价格差
立方
价格差**2价格差**3
常数
回归系数2.6657.8143.484-1.728 7.8043.685-3.674 2.802 7.824
标准差.258 .080 .667 1.300.079 .832 4.8706.749.093
t 10.31097.8185.226-1.32998.6074.427-.754.41583.974
p.000.000.000.195.000.000.457.681.000
对三个模型系数进行显著性检验后,只有线性模型的系数均达到显著水平,而另外 由表3可以看出,
选择线性模型最为理想,即y=β其中x两种模型系数的p值至少有一个大于0.05。因此,xε,0+12+2为β价格差,ε为随机误差,y为销售量,i为回归系数。β
三、模型建立与求解(一)模型一
由曲线估计知,价格差与销售量适合线性模型,而广告费用与销售量更适合二次项曲线模型。但因二所以可将广告费用的平方作为一个新的自变量引入,从而采用多元线性回归次函数可以转化为线性函数,
分析,建立价格差、广告费用、广告费用的平方与牙膏的销售量的回归模型一,即y=βxxx0+11+22+33βββ其中xxx+ε,ε为随机误差,y为销售量,1为广告费用,2为价格差,3为广告费用的平方,i为回归系数。β
多元回归分析之前,需引入新的变量。从“转换”菜单中,打开计算变量对话框,输入新的目标变量名,即广告费用的平方,然后在数字表达式中编辑函数,生成新的变量。接下来在“分析”菜单中,打开线性回
·94·
归对话框,将广告费用、价格差和广告费用的平方同时选为自变量,将销售量选为因变量;单击“统计量”按。钮,在弹出的对话框中勾选“置信区间”
表4 回归模型一的模型摘要
模型
广告费用、价格差和广告费用的平方
R .952
2
RF 82.941
p.000
.905
以广告费用、广告费用的平方和价格差共同作为自变量时,能显著预测销售量,其联 由表4可以看出,
合解释9因此模型一从整体上来看是可用的。0.5%的变异量,
表5 回归模型一的模型系数
模型常数价格差广告费用广告费用的平方
回归系数17.324 1.307 -3.696.349
差分的95%置信区间下限5.728 .683 -7.499.038
上限28.9211.931.108.659
t 3.0714.305-1.9972.306
p.005 .000.056.029
模型一的回归方程为y=1广告7.324-3.696x1.307x0.349x 由表5可知,ε。该模型显示,1+2+3+费用对销售量的影响不太显著,但广告费用的平方对销售量的影响是显著的,因此将广告05,p值大于0.费用作为回归变量仍保留在模型中。
(二)模型二
尽管模型一从整体来看较为理想,但表5显示的置信区间[包含零点,这说明广告费-7.499,0.108]用对销售量的影响导致该模型不稳定,还需要进一步改进。模型一中,广告费用和价格差对于销售量的影响是相互独立的,而由现实经验可知,广告费用和价格差之间的交互作用也可能会影响牙膏的销售量。
考察变量间的交互作用,须先对变量作定性分析。
若变量均为分类变量,则采用方差分析来检验自变量对因变量的影响以及各自变量间的交互作用;若变量均为连续变量,则采用在回归方程中纳入变量的乘积项,通过检验其回归系数的显著性来判断变量间如果回归系数为正,则变量间存在正交互作用,如果回归系数为负,则变量间存在负交是否存在交互作用,
互作用;若变量包含分类变量和连续变量,可将分类变量转换为虚拟变量后,当成连续变量再进行回归分析。
4
考虑到广告费用和价格差均为连续变量,因此采用在回归方程中纳入二者的乘积x来代表广告费用
和价格差的交互作用,记为广告费用×价格差。具体操作如前,并在线性回归对话框中,单击“绘制”按钮,“在弹出的对话框中将“选入X轴,选入Y轴,绘制标准化残差的散点图,同时勾选PRED”RESID”*Z*S“,直方图”绘制标准化残差的频数分布图。
表6 回归模型二的模型摘要
模型
广告费用、价格差、广告费用的平方、广告费用×价格差
R .960
2
R
F 72.777
p.000
.921
表7 回归模型二的模型系数
模型常数广告费用的平方广告费用×价格差
广告费用价格差
回归系数29.113 .671 -1.478-7.60811.134
t 3.8903.312-2.215-3.0812.504
p.001 .003.036.005.019
差分的95%置信区间下限13.701 .254 -2.852-12.6931.978
上限44.5251.089-.104-2.52320.291
再引入广告费用×价格差后,联合解释9较模型一有所提高,并且所2.1%的变异量, 由表6和表7知,
有置信区间均不含零点,这说明模型二较模型一有所改进,更符合实际。模型二的回归方程为y=29.113
·95·
其中x608x11.134x0.671x1.478xxx-7.ε,1+2+3-4+1为广告费用,2为价格差,3为广告费用的平方,
即广xx1.478,ε为随机误差。表7还显示,y为销售量,4为广告费用×价格差,4的回归系数估计值为-可以较少地依赖广告投入的增加来提高销售量;当价告费用和价格差存在负交互作用。当价格差较大时,则需要投入较大的广告费用来提高销售量
。格差较小时,
由图3可以看出,标准化残差呈正态分布。图4显示,各点围绕残差等于0的直线上下随机分布,说明当前的回归模型对原始数据拟合情况良好。
参考文献:
[]姜启源,谢金星,叶俊.数学模型[北京:高等教育出版社,1M].2003.
[]———相关分析与回归分析[]()张苏江,陈庆波.数据统计分析软件S五)畜牧与医,2PSS的应用(J.2003,09.
图3 残差的直方图
图4 残差的散点图
AlicationExamlesofSPSSinMathematicalModelin pppg
ZHOUJin g
()Tianin MetalluricalVocationalTechnoloCollee,Tianin,China300400 jggy gj
:,AbstractInthestudoftherelationshiamonsalesvolumeandtheadvertisininvestrice -ypggp
,mentofthetoothasteinacertaincomanreressionanalsisbSPSS18.0ismadeandthere -ppygyy ressionmodelofthetoothastesalesandotherfactorsisestablishedtomakeastatementthat pg
redictedroblems.SPSShassuerioritinsolvinmathematicalmodelin pppygg
:;mKewordsSPSS18.0;reressionanalsisathematicalmodelin ygyg
·96·