市场预测方法

第六章

市场预测方法

本章结构图

第六章 市场预测方法

【本章要点】

本章将主要介绍有关市场预测的方法,包括传统预测的定性和定量方法以及现代计算机软件包预测方法等。

【典案阅读】

【教学内容】

第一节 传统预测方法

【学习目标】

 知识点

1、定性预测和定量预测的主要方法有哪些? 2、比较区别专家预测法与德尔菲法的异同  技能点

各种预测方法的灵活应用

【讲授与训练内容】 一、 定性预测

定性预测是指不依托数学模型的预测方法。这种方法在社会经济生活中有广泛的应用,特别是在预测对象的影响因素难以分清主次,或其主要因素难以用数学表达式模拟时,预测者可以凭借自己的业务知识、经验和综合分析的能力,运用已掌握的历史资料和直观材料,对事物发展的趋势、方向和重大转折点作出估计与推测。定性预测的主要方法有指标法、专家预测法、销售人员意见综合法和购买意向调查预测法等。 (一)指标法

指标法又称朴素预测法,是通过一些通俗的统计指标,利用最简单的统计处理方法和有限的数据资料来进行预测的一种方法。这些统计指标包括平均数、增减量、平均增减量等。这里只介绍领先指标的预测运用,其他指标的预测运用将在后续章节中讲述。图形法是利用直观的图表来推测事物未来较短时期的变化发展趋势的方法。这两种方法都是最简单的非模型预测。 1、领先指标法

社会上的许多事物都可以看作是随时间流逝而不断发展的变量。比较各种变量变化的曲线图形,常常会发现某些变量的图形存在着明显的相似性,即某些曲线的起伏变化间距与另一些曲线的起伏变化间距几乎是相同的。就是说某一曲线

经过一段时间由波峰(或波谷)发展到了波谷(或波峰),而另一条曲线也以相同的时间从波峰(或波谷)发展到了波谷(或波峰)。根据这种情况,人们可以把发生在前的事物作为参照物,从而推测后发生相似事物的发展变化趋势。 (1)领先指标、同步指标和滞后指标

与预测对象的发展有相似性的变量可分为三类。一类是在变化时间上早于预测对象,即波峰或波谷的出现时间均早于预测对象,这类变量称为领先指标(或先行指标);第二类是变化时间与预测对象完全同步,即出现波谷与波峰的时间与预测对象相一致,它们被称为同步指标(或同行指标);第三类是在变化时间上迟于预测对象,它们被称为滞后指标(或后行指标)。

基本建设的投资,是机械产品、钢材、木材、水泥等建筑材料需求量的先行指标。根据国家公布的基本建设投资规划,可以预测一段时间后这些生产资料的需求情况。人口增长和人均收入的变化是生活资料需求量的先行指标。根据国家的人口规划和提高人民收人水平的计划,可以预测一定时期之后某些消费晶的需求量。基本建设对钢材、水泥和木材三大材料的需求量是同步指标,并且各需求量之间还有较为固定的比例关系。如果其中某种材料的生产或供应能力有限,则另外两种材料的需求也将受到限制。因此,通过研究“短线”(供应能力不足)材料可供数量的变化情况,可以预测供应能力有余材料的需求量。滞后指标有助于验证领先指标所表示的经济趋向是否真实。 2、领先指标法预测步骤

(1)根据预测的目标和要求找出领先指标。例如,预测化工产品的价格变动,可把石油价格变动作为领先指标。

(2)画出领先指标、同步指标、滞后指标的时间序列图。 (3)进行预测。

3、应用领先指标法的条件

必须指出,指标之间的关系是根据以往的经验和历史数据来确立的,国家的某些政策很可能已改变了指标之间以往的伴随关系,领先指标与预测对象之间的提前时间也不一定是常数。认真分析这些情况,确认指标之间的伴随关系到现在是否仍然存在、间隔时间有什么变化,是应用领先指标法进行预测的必要条件,也是减少预测风险的要求。领先指标法适用于诸如原材料价格的变动先于制成品价格的变动,教育事业的发展先于科学技术的发展等中短期预测。 (二)专家预测法

专家预测法是以专家为索取信息的对象,运用专家的知识和经验,考虑预测对象的社会环境,直接分析研究和寻求其特征规律,并推测未来的一种预测方法。其主要包括个人判断法、集体判断法和德尔菲法。

1、个人判断法

个人判断法是用规定程序对专家个人进行调查的方法。这种方法是依靠个别专家的专业知识和特殊才能来进行判断预测的。其优点是能利用专家个人的创造能力,不受外界影响,简单易行,费用也不多。但是,依靠个人的判断,容易受专家的知识面、知识深度、占有资料是否充分以及对预测问题有无兴趣所左右,难免带有片面性。专家的个人意见往往容易忽略或贬低相邻部门或相邻学科的研究成果,专家之间的当面讨论又可能产生不和谐。因此,这种方法最好与其他方法结合使用,让被调查的专家之间不发生直接联系,并给时间让专家反复修改个人的见解,才能取得较好的效果。 2、集体判断法

这种方法是在个人判断法的基础上,通过会议进行集体的分析判断,将专家个人的见解综合起来,寻求较为一致的结论的预测方法。这种方法参加的人数多,所拥有的信息量远远大于个人拥有的信息量,因而能凝集众多专家的智慧,避免个人判断法的不足,在一些重大问题的预测方面较为可行可信。但是,集体判断的参与人员也可能受到感情、个性、时间及利益等因素的影响,不能充分或真实地表明自己的判断。

因此,运用集体判断法,会议主持人要尊重每一位与会者,鼓励与会者各抒己见,使与会者在积极发言的同时要保持谦虚恭敬的态度,对任何意见都不应带有倾向性。同时还要掌握好会议的时间和节奏,既不能拖得太长,也不要草草收场;当话题分散或意见相持不下时,能适当提醒或调节会议的进程等。 3、德尔菲法

德尔菲法是为避免专家会议法之不足而采用的预测方法。这种方法的应用始于美国兰德公司,在国外颇为流行。这一方法的特点是,聘请一批专家以相互独立的匿名形式就预测内容各自发表意见,用书面形式独立地回答预测者提出的问题,并反复多次修改各自的意见,最后由预测者综合确定市场预测的结论。 德尔菲法进行市场预测的步骤

(1)做好准备。准备好已搜集到的有关资料,拟定向专家小组提出的问题(问题要提得明确)。

(2)请专家作出初步判断。在做好准备的基础上,邀请有关专家成立专家小组,将书面问题寄发各专家(如有其他资料,也随同寄发),请他们在互不通气的情况下,对所咨询的问题作出自己的初次书面分析判断,按规定期限寄回。 (3)请专家修改初次判断。为使专家集思广益,对收到各专家寄回的第一次书面分析判断意见加以综合后,归纳出几种不同判断,并请身份类似的专家予以文字说明和评论,再以书面形式寄发各专家,请他们以与第一次同样的方式,

比较自己与别人的不同意见,修改第一次的判断,作出第二次分析判断,按期寄回。如此反复修改多次,直到各专家对自己的判断意见比较固定,不再修改时为止。在一般情形下,经过三次反馈,即经过初次判断和两次修改,就可以使判断意见趋于稳定。

(4)确定预测值。即在专家小组比较稳定的判断意见的基础上,运用统计方法加以综合,最后作出市场预测结论。

【例】:某空调机厂对某种型号的空调机投放市场后的年销售量进行预测,聘请9位专家应用德尔菲法,进行四轮的征询、反馈、修改汇总后得到如下数据:

空调机销售量德尔菲法预测表 单位:万台

从表可以看出专家的第一轮意见汇总得出的中位数为27,极差为31。数据表明,专家的意见相当分散。专家根据反馈意见,大多数人修改了自己的意见并向中位数靠拢,因此,第二轮意见汇总后极差变小。但第四轮征询时,每位专家都不再修改自己的意见了,于是得出最终的预测值,可以认为年销售量将达到26万台,但极差达22万台。

(三)销售人员意见综合预测法

这里所指的销售人员除了直接从事销售的人员还包括管理部门的工作人员和销售主管等人员。销售人员意见综合预测法在实施过程中要求每一位预测者给出各自的销售额的“最高”、“最可能”、“最低”预测值,并且就预测的“最高”、“最可能”、“最低”出现的概率达成共识。

这种预测方法的具体做法是:假设第i位预测者(i =1,2,3,4,5„„n)给出的预测值为Fi j ,其中j = 1表示预测最高值,j = 2表示预测最可能值,j = 3表示预测最低值。最高预测只给出的概率是P1,最可能值给出的概率是P2,最低值给出的概率是P3 。

于是第i位预测者的预测值为Fi = ∑ Pi Fi j

i =1

n

若第i位预测者的意见权重为W i (i =1,2,„„n),则最终预测结果为:

Fi = ∑Wi Fi

【例】:某公司销售经理和两位副经理对某地区本公司的产品的销售量进行预测,得到如下数据,试求预测值。

经理的预测值为:

i =1

n

F1 = 0.3×2720+0.4×2510+0.3×2350 = 2525

副经理甲的预测值:

F2 = 0.3×1900+0.4×1800+0.3×1700 = 1800

副经理乙的预测值:

F3 = 0.3×2510+0.4×2490+0.3×2380 = 2463

最终预测值:

F = 0.6×2525+0.2×1800+0.2×2463 = 2367.6(万元)

(四)购买意向调查预测法

购买意向预测法是一种在市场研究中最常用的市场需求预测方法。这种方法与问卷形式征询潜在的购买者未来的购买量,由此预测出市场未来的需求。由于市场需求是由未来的购买者实现的,因此如果在征询中潜在的购买者如实反映购买意向的话,那么据此作出的市场需求预测将是相当有价值的。在应用这一方法时,对生产资料和耐用消费品的预测较非耐用品精确,这是因为对非耐用消费品的购买意向容易受到多种因素的影响而发生变化。

【例】:在某市区进行空调机需求的市场调查中,访问500个样本,被访者表明购买意向如下:

一定会买 150人 占30% 可能会买 75人 占15% 不能决定是否购买 125人 占25% 可能不会买 100人 占20% 肯定不会买 50人 占10%

总计 500人 占100%

对于上述的调查答案还必须进行某种加权处理才能得出符合实际情况的结论。如,被放着回答一定会购买或可能购买玩网包含夸大购买倾向的成分。被访者之所以具有这种夸大购买倾向的原因,一是为了给访问着一种满足,另一方面是因为回答时往往没有慎重考虑会影响狗阿米的多种因素,仅仅是脱口而出而已。类似的,即使是回答可能不会买或肯定不会买的被访者也有成为最终购买者的可能。根据这种分析,在实际处理时,可对每一种选择赋予适当的购买权重。如对一定会购买赋予权数0.9,可能会购买赋予权数0.2,肯动不会购买赋予权数0.02等等。

平均购买可能性=27%+3%+2.5%+0.6%+0.2%=33.3% 未来市场需求量=家庭总户数×平均购买可能性

假设这一地区共有家庭总数200万个,则该地区空调的未来可能购买量为:2000000×33.3%=666000

二、 定量预测

(一)移动平均法

移动平均法是取预测对象最近一组历史数据的平均值作为预测值的方法。这种方法不是仅取最近一期的历史数据作为下一期的预测值,而是取最近一组历史数据的平均值作为下一期的预测值,这一方法使近期历史数据参与预测,是历史数据的随机成分有可能互相抵消,平均之所含的随机成分就会相应减少。

移动平均法的“平均”是指对历史数据的“算术平均”,而“移动”是指参与平均的历史数据随预测值的推进而不断更新。当一个新的历史数据进入平均值时,要剔除原先参与预测平均得罪陈旧的一个历史数据,并且每一次参与平均的历史数据的个数是相同的。

∑X t- k +1

n K=1

其中,F表示预测值,X表示历史数据,n表示参与平均的数据的个数。

其计算公式为:Ft+1=

1 n

【例】:某公司根据2003年12月的某产品的销量,采用移动平均法预测2004年1月份的销售量情况,求预测值并分析其误差。

移动平均法计算表 单位:万元

(二)季节指数法

季节变动是指某些市场现象由于受自然气候、生产条件、生活习惯等因素的影响,在一定时间中随季节的变化而呈现出周期性的变化规律。如农副产品受自然气候影响,形成市场供应量的季节性变动;节日商品、礼品性商品受民间传统的影响,其销售量也具有明显的季节变动现象。对季节变动进行分析研究,掌握其变动规律,可以预测季节型时间数列的季节变动值。

季节变动的主要特点是,每年都重复出现,各年同月(或季)具有相同的变动方向,变动幅度一般相差不大。因此,研究市场现象的季节变动,收集时间序列的资料一般应以月(或季)为单位,并且至少需要有3年或3年以上的市场现象各月(或季)的资料,才能观察到季节变动的一般规律性。

季节指数法,就是根据预测目标各年按月(或季)编制的时间数列资料,以统计方法测定出反映季节变动规律的季节指数,并利用季节指数进行预测的预测方法。测定季节指数的方法大体有两类,一是不考虑长期趋势的影响,直接根据原时间数列计算季节指数;二是考虑长期趋势的存在,先将长期趋势消除,然后计算季节指数。

1、无趋势变动的季节指数预测法

如果时间数列没有明显的长期变动趋势,就可以假设其不存在长期趋势,直接对时间数列中各年同月(或季)的实际值加以平均,再将各年同月(或季)的平均数与各年的总平均数进行比较,求出季节指数,或将各年同月(或季)的平均数与各年的总平均数相减,求出季节变差,最后通过季节指数或季节变差来计算出预测值。

【例】某商品销售量5年的分季资料,假设该资料无长期趋势,

要求:

(1)设第六年第一季度的销售量为10吨,试预测第二季度的销售量; (2)设第六年上半年的销售量为27吨,试预测第三季度的销售量; (3)设第六年全年的计划销售量为60吨,试预测各季度的销售量。

预测计算过程如下:

注意,计算季节指数时,若以月为周期,则12个月的季节指数之和应为1 200%;若以天为周期,则一周7天的季节指数之和应为700%。如果计算时由于舍人误差,使季节指数之和不等于相应标准时,需用比例法将其调整为标准形态。同理,季节变差之和应等于0,否则也应作调整。

解(1),先根据已知的一季度销售量和一季度的季节指数,求出第六年的季平均数;再根据第六年的季平均数和第二季度的季节指数,求出第二季度的预测值。

第六年的季平均数=10÷60.18%=16.62

第六年第二季度的销售量=16.62 ×83.19%=13.82(吨) 用季节变差预测第二季度的销售量,则可直接计算: 第六年第二季度的销售量=(10+5.625)-2.375=13.25(吨)

解(2),先根据上半年的已知数和一、二季度的季节指数,求出第六年的季平均数;再根据第六年的季平均数和第三季度的季节指数,求出第三季度的预测值:

第六年的季平均数=27÷(60.18%-I-83.19%)=18.83 第六年第三季度的销售量=18.83×109.73%=20.66(吨) 也可用季节变差直接计算:

第六年第三季度的销售量=1.375+(27+5.625+2.375)÷2 =18.875(吨)

解(3),也需先求出第六年的季平均数,再根据第六年的季平均数和各季度的季节指数,求出各季度的预测值: 第六年的季平均数=60÷4=15

第六年第一季度的销售量=15×60.18%=9.027(吨) 第二季度的销售量=15×83.19%=12.4785(吨) 第三季度的销售量=15×109.73%=16.4595(吨) 第四季度的销售量=15×146.90%=22.035(吨) 仍可用季节变差直接计算:

第六年第一季度的销售量=15—5.625=9.375(吨) 第二季度的销售量=15—2.375=12.625(吨) 第三季度的销售量=15+1.375=16.375(吨) 第四季度的销售量=15+6.625=21.625(吨) 2、含趋势变动的季节指数预测法

市场现象时间数列的变动,大部分都是季节变动与长期趋势变动交织在一起

的。在研究其季节变动的同时,还必须考虑其长期趋势变动,把季节变动和长期趋势变动两种变动规律综合起来进行预测。

对含有两种变动趋势的时间数列求季节指数,最简便的办法是利用移动平均法计算出各期的趋势值,再将各期的实际值与对应期的趋势值相比较,计算出季节比率;接着把各年相同季节的季节比率加以平均,必要时再作一点修正,即求得季节指数。得到季节指数后,再根据趋势值的平均变动情况,求出预测期的趋势值,将其与对应期的季节指数相乘,就能得到所要预测的值。

以上例为例,销售量是含增长趋势的季节变动时间数列,按移动平均法来计算季节指数的过程见表。

季节比率计算表

注意,由于移动跨越期是偶数,移动平均数对应的时间是中点,因此需要对相邻的两个移动平均数再进行一次移动平均,得出趋势值才能正好与同期实际值一一对应。计算出趋势值和平均趋势变动情况后,即可推测在长期变动趋势影响下各期的趋势值。如第四年第四季度的趋势值为18.375,第五年第三季度与之相隔3期,平均趋势变动情况为0.66,则第五年第三季度的趋势值为:

18.375+3X0.66=20.355。之后,再与相应的季节指数相乘,便得到了该期的预测值。

季节指数计算表 (单位:%)

还有其他方法也能求出季节指数,限于篇幅,这里不再介绍。 根据上述已获得的资料,预测后续6个季度销售量的计算过程如下: 第五年第三季度预测值=(18.375+3×0.66)×120.54%=24.54(吨) 第四季度预测值:(18.375+4×0.66)×151.91%=31.92(吨) 第六年第一季度预测值=(18.375+5×0.66)×50.57%=10.96(吨) 第二季度预测值=(18.375+6×0.66)×76.98%=17.19(吨) 第三季度预测值=(18.375+7×0.66)×120.54%=27.72(吨) 第四季度预测值=(18.375+8×0.66×151.91%=35.93(吨)

季节指数计算表 (单位:%)

还有其他方法也能求出季节指数,限于篇幅,这里不再介绍。 根据上述已获得的资料,预测后续6个季度销售量的计算过程如下: 第五年第三季度预测值=(18.375+3×0.66)×120.54%=24.54(吨) 第五年第四季度预测值:(18.375+4×0.66)×151.91%=31.92(吨)

第六年第一季度预测值=(18.375+5×0.66)×50.57%=10.96(吨) 第六年第二季度预测值=(18.375+6×0.66)×76.98%=17.19(吨) 第六年第三季度预测值=(18.375+7×0.66)×120.54%=27.72(吨) 第六年第四季度预测值=(18.375+8×0.66)×151.91%=35.93(吨)

(三)指数平滑法

指数平滑法是取预测对象全部历史数据的加权平均值作为预测值的一种预测方法。指数平滑法对移动平均法有两个方面的改进,一是全部历史数据而不是一组历史数据参与平均;二是对历史数据不是采用酸酸平均而是采用加权平均,近期历史数据加较大权数,远期历史数据加较小权数。这和近期实力数据对预测有较大影响,远期历史数据影响较小是一致的。

指数平滑法的计算公式为:Ft+1 = 取值。

k-1

∑α (1-α) X t- k +1

k=1

k-1

其中,F表示预测值,X表示历史数据,α表示平滑系数,α在(0,1)中用α (1-α) 作为权重是合理的。因为 ∑α (1-α)

k=1

k-1

= α 1-(1-α)

= 1。

显然当k=1时,历史数据最接近,权重为α,当k逐渐增大时,历史数据逐

k 渐远离,这时权重为α (1-α) 按指数规律逐渐缩小。直接应用上述公式机型预测在操作上并不可行,现做如下变形:

∞ k-1

Ft+1 = ∑α (1-α) X t- k +1

k=1

= α X t + α (1-α) X t- 1 + α (1-α) X t- 2 + „

2

= α X t + (1-α) Ft 所以有:

Ft+1 = α X t + (1-α) Ft

这就是指数平滑法的简化形式。在应用这一公式时直接取F1=X 1。 例如:某公司根据最近12年的销售额,预测第13年的销售额情况,用一次指数平滑法进行预测。(α =0.3)

关于平滑系数的取值直接影响预测结果的精度。一般平滑系数按如下的原则选取:

①对于斜坡趋势型的历史数据,一般可取较大的平滑系数0.6< α <1; ②对于水平型历史数据一般可取较小的平滑系数0< α <0.3; ③对于水平型和斜坡趋势型混合的历史数据,一般可取适中的平滑系数 0.3≤α ≤0.6。 (四)因果分析法

因果分析法也叫回归分析法,就是分析市场变化的原因,找出原因与结果的

联系的方法,并据此预测市场未来的发展趋势。

在生产和流通领域的活动中,经常遇到一些同处于一个统一体中的变量。在这个统一体中,这些变量是相互联系、相互制约的,它们之间客观上存在着一定的关系。为了深入了解事物的本质,需要利用适当的数学表达式来表明这些变量之间的依存关系。微积分是研究完全确定的函数关系。然而,在许多实际问题中,不是由于变量之间的关系比较复杂,使人们无法得到精确的数学表达式,就是由于生产或实验过程中不可避免地存在着误差的影响,而使它们之间的关系具有某种不确定性。

因此,需要用统计方法,在大量的实践或观察中,寻找隐藏在上述随机性后面的统计规律性。这类统计规律称为回归关系,有关回归关系的计算方法和理论通称为回归分析法。用回归分析法来分析一个或几个自变量(y)的变动,推测另一个自变量(x)变动的方向和程度,就是回归预测。回归预测主要分一元线性回归预测、多元线性回归预测、非线性回归预测等。

1、一元回归预测法

一元线性回归预测是运用一个在事物变动的诸因素中只要的和决定作用的自变量的变动,来推测另一个因变量的变动情况并得出它们之间的关系式,从而进行市场预测的一种方法。因为这两个变量之间的关系式一般呈线性关系,所以叫作线性回归预测法。再以它们相关的方向不同,又有正相关(顺相关)与负相关(逆相关)之分。例如,某地区居民人均年收入增加,某种耐用销售品的销售量也随之增加,其变动方向一致,因此称为正相关。如果根据商品流通费率的大小来预测商业利润的增减,由于流通费率增大,利润率就会随之降低,其变动方向是反的,就称为负相关。

一元线性回归法的公式为:Y = a + bx

上式中Y的因变数,x为自变量,即引起市场变化的某影响因素;a、b为回归系数,其中a是截距,b为斜率。在市场预测中,回归分析则是通过历年数据确定回归系数a、b之值。推算a、b值的常用方法是最小二乘法。公式为:

1 1 - -

a = ∑y -b = y - b x

1 ∑x y -∑x ∑y

b ==

∑x -∑x )

n∑x y -∑x ∑y n∑x -(∑x )

【例】:现在以1986年至1990年某地区居民人均年收入与某企业生产的某

种耐用消费品的年销售量为例。

根据上述公式,得:b = 1.08 ,a =5

据此建立的预测模型为:

y^= 5 + 1.08 X

当1991年居民人均年收入为900元时,该企业的年销售量预测值为:

y^ = 5 + 1.08 × 9 = 14.72(万件)

2、多元线性回归预测法

在市场变化中,一般影响因变量的的因素不止一个,所以需要研究多元回归。多元回归分析的理论与一元基本相同,只是表达式和计算都较为复杂。多元线性回归的一般公式为:

y = a + b 1X 1 + b 2 X 2 + … + b n X n

式中:y — 因变量

X i — 变量

a — 回归系数 b i — 回归系数

我们以二元线性回归模型为例进行分析,二元线性回归模型的公式为:

y = a + b 1 X 1 + b 2 X 2

利用最小二乘法可以求得3个标准方程式,即分别对a、b1、b1求偏导数,并令函数的一阶导数等于0。可得到如下三个标准方程式:

∑y = na + b 1 X 1 + b 2 X 2

2

∑X 1y = a∑X1 + b 1∑X 1 + b2∑X1X2

2

∑X 2y = a∑X2 + b 1∑X1X2 + b 2∑X 1X 2

2 2

解上列3个方程式,将X1、X2、y、X 1y、X 2y、X 1、X 2、X 1X 2各项数值之和代入3个方程式进行运算,求出三个参数a、b 1、b 2的数值。最后将参数

代入多元方程式,即进行预测。

第二节 现代预测方法

【学习目标】

 知识点

1、时间序列软件包TSP的工作原理和过程 2、策略应用资讯系统SAS的基本程序  技能点

两种现代预测方法的灵活应用

【教学内容】

一、时间序列软件包TSP

时间序列软件包TSP(time series program)是由美国TSP公司开发的一种应用统计预测软件包,由于它具有命令容易记忆、操作简单、运用范围广等特点而被广泛应用。TSP具有对样本数据进行统计描述、相关分析、回归分析等功能,并且能够进行移动平均、指数平滑、线性回归、非线性回归和给定方程的预测,还可以对联立方程及模型进行模拟等。现以TSP652版本为基础介绍TSP的基本功能。

(一)TSP工作文件的编辑

TSP软件包的各种功能是通过命令和命令菜单的方式实现的,因此,只要知道各命令菜单的功能和对应各功能的命令即可实现各种分析。

1.进入TSP系统。假设TSP是保存在硬盘C区的TSP子目录下,在DOS环境下先进入TSP子目录,然后键人TSP命令,回车(用/表示)。在一系列显示之后便进入TSP系统。

2.退出TSP系统。在TSP系统内,输人命令exit,屏幕显示:abandon the cur—rent work file(y/n),选择y,便会退出TSP系统,返回到DOS系统。 3.工作文件的建立。TSP软件包可以分析多种属性的数据,包括年度性质、季节性质、月度性质的数据和非时间性质数据。在处理数据之前,需要设定数据的属性及范围。工作文件就是说明分析数据属性和范围的文件,建立了工作文件就建立了分析数据的环境。TSP统计分析功能的实现,是在工作文件内进行的。 在用户进入TSP系统之后,屏幕的第一个显示区(状态显示区)会显示: No work file in memory—Use CREATE or LOAD command

这是计算机提示用户还没有建立工作文件,需要用CREAT命令建立工作文件,或用LOAD命令从磁盘上引导一个事先已经建好的工作文件。在内存中建立工作文件,可以用F3下的菜单来实现,具体方法是:

按F3键,屏幕显示一个菜单。在菜单中选择(1)work file(begin session),回车后在下级菜单中选择(1)create a WF in RAM,回车。以上步骤可以简记为F3→(1)work file(begin session)→(1)create a Wf in RAM。用户也可以直接输入CREAT命令(简记输入CREAT)建立工作文件。执行CREAT命令或进行上述选择后,屏幕显示:

该菜单询问用户建立何种属性的文件:(U)非时间性;(A)年度性;(Q)季度性;(M)月度性的文件。用户在上述4项选择中用方向键选中一项,也可以直接选小括号内的字母。假设用户分析的是年度性质的数据,可选择A,屏幕显示: Frequency//Annual starting date?

输入样本数据的起始年份(如1980),屏幕显示: starting date//1980 ending date?

输入样本数据的终止年份(如1999),回答完上述选项后,屏幕的状态显示区会显示 状态:

range 1980—1999 current SMLP 1980—1999 series current=0 maximum=500,至此内存工作文件已经建成。建立非时间属性、月度属性或季度属性的工作文件的方法类似。

建立内存工作文件时,时间属性数据序列时间的表达方式如下:年份数据用一个四位整数表示,如1980,1987等;季度属性的数据可以在年份的后面加一位小数,如1980.1表示1980年第一季度;月度属性的数据在年后加两位小数,如1980.12表示1980年的12月份。

4.磁盘工作文件的导入。如果磁盘上存在过去已建好的工作文件,可以将此工作文件导人到内存中,具体方法是:先用CD命令进入工作文件所在的子目录中,再选择F3一(2)load a Wf from disk,或键人命令LOAD,屏幕显示;

file name?输入磁盘上的工作文件名,就可以将该工作文件导入到内存中。 5.内存工作文件的存盘。将内存中的工作文件存盘的方法是:选择F3一(3)save WF to disk,或键人命令SAVE,屏幕显示:file name?,输入文件名(如FX),系统便将该文件保存到当前子目录下。工作文件存盘后,在当前子目录下会出现FXWF和FX.H文件。内存工作文件最好在分析完成之后再存盘,这样,存盘的工作文件就包含所有分析的信息。 (二)数据序列的编辑

数据序列也称数据文件,是由一组样本数据构成的一个有序的数组,是TSP系统分析的对象,也是工作文件中操作的对象。

1.数据序列的建立。内存工作文件建立后,在工作文件中的数据序列的时间属性和时间范围也就随之确定,用户可以在工作文件中建立数据序列,数据序列建立的方法是:选择F4→(3)data editor,或输人命令DATA,屏幕显示,series list?回答所要建立的数据序列名(如SR),屏幕上显示数据输入状态,如附表l所示。

其中Obs代表数据序列的时间,由计算机自动按序给出,SR为数据序列名。方框内是

输入数据的位置。用户按提示信息依次输入数据序列的各个观察值。当所有数据输入完成之后,再输入X,系统自动在内存中建立数据序列,同时返回到TSP最初的显示状态,屏幕上方状态区域内会增加新建的数据序列名SR。重复上述操作,可以将要分析的数据序列都输入到内存中。在输人数据时,各个数据序列的名称不能重复,以免数据被覆盖丢失。TSP软件包中有6个保留字AR、C、COEF、MA、NA、PDL、RE—SID不能作为序列名,它们是系统默认的有特殊意义的参数名。

2.数据序列的修改。在数据序列输入状态下,屏幕上方显示的内容是对数据进行修改的命令,B表示返回到前面一个年份,I#表示在年份为#的位置上插入1个数据,D#表示删除年份为#位置上的数据,N#表示将光标转移到年份为#的位置

上,X表示保存数据并退出数据录入状态。如果要修改磁盘中已有的数据系列,要先将该数据系列调入内存,再用DATA命令进行修改,具体修改方法同上。 3.数据序列的存盘。当用SAVE命令保存当前工作文件时,建立在内存中的数据序列会与其他信息构成一个整体形成一个工作文件保存在磁盘上。有时我们会在不同的工作文件中分析同一个数据序列,为方便起见,可以将该数据序列单独存盘。数据序列存盘的方法是:选择F5→(2)Data bank operation→(2)store series in DB,或输人命令STORE,屏幕显示:series list?回答数据序列名,这时小写字母的数据序列名会变成大写的序列名,表明数据序列已存盘。用户也可以同时将内存中的多个数据序列存盘,输入的序列名之间用空格分开。存盘后的数据序列文件以DB为后缀的文件形式存在。

4.数据序列的读取。保存在磁盘上的数据序列,可以读取到当前工作文件中。读取数据序列的方法是:选择F3→(2)Data bank operation→(1)Fetch series from DB file,或输人命令Fetch,屏幕显示:series list?键入所要读取的数据序列名(如SR),屏幕操作区便会显示被读取序列的文件名、时间范围以及读入的时间范围,同时屏幕上方状态显示区会增加文件名为SR的序列,表明序列SR已读入内存。如果当前工作文件的时间范围在原数据的时间范围之内,则直接将数据读入;若超出原数据时间范围,超出时间的数据是缺省数据。 5。生成数据序列。有时根据分析的需要,要由原有的数据序列生成一个新的数据序列。如内存中已有X1,X2两个数据序列,利用TSP可以生成X²1或Xl × X2的数据序列。新数据序列产生的方法是:选择F4→(2)Generate by equation,或输入命令GENR,屏幕显示:Equation?系统要求用户输入新的序列名和生成新序列的表达式,其形式是:

新序列名=表达式

新序列名是用户自定义的序列名,表达式是利用内存中已有的序列构成表达式。例如用户要生成X²1新序列并把新序列名命名为XPF,则在Equation?后键入:

XPF:Xl*Xl

命令被执行后,屏幕显示XPF computed,屏幕上方状态区会出现序列名XPF,表明已生成XPF新序列。GENR命令是TSP中非常有用的命令,利用它可以获得多种分析所要的数据序列。 6.数据序列的显示。

(1)数据序列内容的显示。显示内存中数据序列的方法是:选择F4→(9)showdata table,或输人命令SHOW,屏幕显示:series list?输入要显示的序列名。可同时输入多个序列名,各个序列名之间用空格隔开。用户也可以

通过命令LABEL显示数据序列的注释内容,注释内容包括last updated和annual两部分。

(2)数据序列图形显示。TSP统计预测软件包可以显示数据序列的折线图、散点图、条形图、片形图和频数图等。数据序列的显示功能是在F4功能菜单内的(8)Gra—phies子菜单内实现的。Graphies子菜单的内容见附表2。 附表2 Graphies菜单内容

选择其中的内容或输入对应的命令,系统便显示下级子菜单。如要显示散点图,可在附表2中选择(2)scatter diagram,或输入命令SCAT,屏幕显示:series list?用户要输入两个序列名,前一个序列名为纵坐标,后一个序列名为横坐标,两个序列名之间用空格分开,回车后屏幕显示:

用户选择其中一项便可显示相应的图形。在图形下方出现提示信息(T) →Type,(P) →Print,(S) →Save,(O) →Options,(F) →plotter & HPGL,(R) →Preview,(X) →Exit,供用户选择。

(三)TSP软件包预测功能

1.移动平均法。根据移动平均法的原理进行移动平均分析,需要对数据序列中的数据进行移动。利用GENR命令,可以获得某一个序列的移动序列,方法是选择F4→(2)generate by equation,在equation?后输人:

新文件名=序列名(n)

其中序列名是要移动的序列;n表示移动的期数,当n取正数时,表明序列中的数据向上移动n期,n取负数时,表明数据序列向下移动n期,新文件名即为移动后的数据序列名称。例如,要将数据序列SR向下移动一期,可输入

SRl

=SR(-1),SRl便是SR向下移动一期的序列。若计算数据序列n=3时的移动平均值,可以用如下方法获得:

(1)键入GENR命令,屏幕显示:equation?

(2)在equation?后输入方程:YC=(SR+SR(-1)+SR(-2))/3

YC是移动平均序列,SR(-1),SR(-2)分别表示将SR中的数据向下移动一期和二期,回车后屏幕显示YC computed,表示移动平均序列已计算。

2.指数平滑分析。TSP软件包具有指数平滑的功能,具体方法是:选择F5→(8)Exponential smoothing→(s)single exponential,或输入命令SMOOTH,屏幕显示:series to smooth?输入要进行平滑分析的数据序列名(如SR),屏幕显示name for forecast series?输入预测序列名(如PH),屏幕显示:Estimate all smoothing pa-rameters?(y/n),选择N,屏幕显示:enter parameter value between 1 and 0,or E for estimate(ALPHA?),提示用户输入平滑系数。的值,用户输入a值,屏幕显示计算结果见附表3。 附表3 指数平滑分析结果

此表分别显示分析的时间、数据时间范围、数据个数、平滑方法、原始数据序列名、平滑值数据序列名、平滑系数、剩余平方和、误差平方和末期平均值。平滑分析完成之后,系统将平滑序列PH保存在内存中供使用者调用。

TSP系统在计算平滑值时,是采用将序列前三期数据的平均值作为预测值的期初水平。

3.相关分析。选择F5→(1)Descriptive & test statistics→

(1)Descriptive,或输入命令COVA,屏幕显示:series list?用户输入要进行相关分析的数据序列,屏幕显示计算的结果。COVA命令具有两种功能,一是计算数据序列的均值、标准差、最大值、最小值,二是计算数据序列的协方

差和相关系数。

4.回归分析。TSP软件可以进行回归分析的方法有:普通最小二乘法、两阶段最小二乘法、非线性最小二乘法、加权最小二乘法、两阶段加权最小二乘法、非线性加权最小二乘法等。本文以普通最小二乘法和非线性最小二乘法为例说明如何进行回归分析。

(1)普通最小二乘法。选择F5→(2)single equation estimation→

(1)ordinary least squares &ARM,或输人命令LS,屏幕显示:Dependent variable?输入因变量序列名,屏幕显示:independent variable list,输入常数项c和自变量序列名。屏幕显示回归分析的结果。

执行LS命令后,系统生成三部分结果:回归系数及各种统计检验值,自变量的协方差矩阵,序列观察值、拟合值、回归残差值和残差图形。

①回归系数和统计检验值。这部分结果分成上、下两个部分,上部分是变量名、回归系数估计值、回归系数标准差、回归系数的T检验值;下部分是各种统计检验值,判定系数(R-squared)、调整判定系数(Adjusted R-squared)、D - W检验值(Durbin-watson stat)、F检验值(F-statistic)、回归标准差(S.E.of regression)、因变量平均值(Mean of dependent var)和因变量方差(S.D.of dependent var)。

②解释变量的协方差矩阵,在第一部分显示表下有提示信息Display the coefficient covariance matrix?(P.S.enter)是提示使用者是否显示协方差矩阵。选择P是打印协方差矩阵,且屏幕同时显示这一结果;选择S是显示协方差矩阵而不打印;Enter为不显示也不打印,只是在屏幕底部改变显示内容。 ③序列观察值、拟合值、残差值和残差图形。

当在协方差矩阵显示结果中选择了S或Enter后,屏幕上即会显示各时期的实际观察值、回归拟合值、残差值和残差图形(actual,Fitted,Residual,Residual PLOT)屏幕底部显示提示信息:Repeat the output?按回车键则退出LS命令显示;选择S则回到第一部分。 .

(2)非线性最小二乘法。TSP软件包可以对非线性模型不进行线性化的情况下进行回归分析。例如对非线性模型y=a+bece,利用最小二乘法很难计算出a、b、c的估计值。若利用非线性回归就可以比较容易地进行分析,具体方法是: 选择F5→(2)single Equation Estimation→(4)nonlinear least squares,或输入命令NLS,屏幕显示:equations?输入回归方程:

y=c(1)+c(2)*exp(c(3)*x)

回车之后屏幕显示回归分析的结果,其显示形式与线性回归分析的形式一样。 在非线性回归分析中未知参数是用c(1),c(2),c(3),„,c(n)的形式表

示。等式左端必须是已知的一个数据序列,右端为已知数据序列带未知参数的表达式。作为非线性回归分析特例的线性回归分析也可以利用NLS命令来进行分析。如线性模型,可以用NLS命令,然后输入等式

y=c(1)+c(2)* x

来分析,其结果与线性回归分析相同。

5.回归分析预测。执行了回归分析的命令后,系统便将生成的回归方程保存在内存中,成为当前方程,同时将回归系数分别保存在变量c(1),c(2),„,c(n)中,将残差保存在序列RESID中。我们可以利用回归方程计算出理论预测值序列,也可以利用方程进行趋势外推。

(1)计算理论预测值序列。选择F5→(3)Equations and forecast→

(6)forecast→dynamic simulation或输入命令FORCST,屏幕显示:Name for forecast series?输入回归预测值序列名(如HGYC),序列HGYC便是理论预测值序列,同时屏幕上方状态区出现新序列名HGYC。

(2)趋势外推。利用回归方程进行趋势外推的步骤如下:

①更改工作文件的时间范围。如果当前工作文件的时间范围没有达到预测期的范围,需要将工作文件的时间范围扩展到预测期,扩展工作文件时间范围的方法是:选择F5→(1)work files →(4)expand the sample range,或输入命令EXPAND,屏幕显示:starting date,输入起始时间,屏幕显示Ending date?输入终止时间,屏幕的状态显示区中的range由原来的范围改变为现在确定的时间范围。

②更改数据序列的时间范围。更改数据序列时间范围的方法是:选择F4→

(1)set sample range,或输人命令SMPL,屏幕显示:sample rang or IFexpression?输入起始时间,屏幕显示:Ending of range?输入终止时间,屏幕上方的current SMPL由原来的时间范围改变为用户确定的时间范围。

③输入自变量预测期数据。用DATA命令输人扩展期内自变量的数据。注意,输入新数据的自变量序列名与原先的自变量序列名必须相同,因为输入的数据是自变量预测期(扩展期)内的数据,若更改自变量序列名,系统在预测时还会用原来没有扩展期数据的原数据序列。

④计算预测值的数据序列。当自变量数据增加之后,就可以利用FORCST命令进行预测。

二、SAS

美国SAS软件研究所创立于1976年,是全球第九大独立软件开发商,同时也是全球最大的私人独立软件商,目前拥有员工近5,500人,在六十多个国家和地区设有分公司和分支机构,1998财政年度营业额接近8.7亿美元。

SAS系统经过二十多年的不断发展和完善,已由最初的统计分析系统发展成为能够为用户提供企业级管理信息和决策支持系统完整解决方案的集成应用系统和策略应用资讯系统(Strategy Application System),具有完备的数据访问、管理、分析和呈现功能。利用SAS系统的数据仓库管理工具(SAS/Warehouse Admin—istrator)、多维数据库技术(SAS/MDDB Server)和广泛的数据库接口,结合完备的数据处理能力、对分布式计算环境和Intranet技术的支持,使得用户可以方便地建立和维护数据仓库(Data Ware—house),进而通过简便快捷的开发工具和丰富的数据分析工具实现包括管理信息系统(MIS)、行政信息系统(EIS)、决策支持系统(DSS)、联机分析处理(OLAP)、数据发掘(Data Mining)等范围广泛的应用。美国《DATAMATION》杂志1996、1997已连续两年将SAS系统评为数据仓库工具的年度最佳产品;法国《Yphise》杂志1997、1998已连续两年将SAS/Enterprise Miner评为数据挖掘的最佳工具。环顾全球,近120个国家和地区的30000多个机构采用了SAS系统,直接用户超过三百万人,SAS系统被广泛应用于政府、科研、教育、生产和金融等不同领域,发挥着日益重要的作用。

目前最高的版本是SAS6.12版本。

在Win95或NT环境中,从开始菜单的程序文件夹中找到SAS系统文件夹,从中启动SAS系统。在Windows 3.xx环境中双击SAS系统程序组中的SAS图标以启动SAS系统。

(一)SAS运行界面

启动SAS后,出现如图1的SAS运行界面。它象其它Win—dows应用程序一样,在一个主窗口内,包含若干个子窗口,并有菜单条、工具栏、状态栏等。 SAS有三个最重要的子窗口:程序窗口(PROGRAM EDI—TOR)、运行记录窗口(LOG)、输出窗口(OUTPUT)。

程序窗口用来编辑SAS程序。程序可以直接在窗口中键入,也可以从剪贴板上粘贴文本,还可以打开用其它编辑软件(如写字板程序)编辑的文本文件。要运行编辑好的程序,只要用鼠标单击工具栏的提交图标 ,或用Locals菜单的Submit命令。要调回刚运行过的程序,在程序窗口用“Locals │Recall text”菜单或按F4功能键。

运行记录窗口记录程序的运行情况,运行是成功还是出错,运行所用时间,如果出错,错在什么地方。运行记录窗口中以红色显示的是错误信息。

输出窗口显示SAS程序的文本型输出(图形输出单独有一个GRAPHICS窗口)。输出分页显示。

要激活某一窗口,可以用主菜单中的Window菜单选择要显示的窗口。用功

能键F5可以切换到程序窗口,F6可以到运行记录窗口,F7可以到输出窗口。 SAS主窗口标题栏下是主菜单。SAS菜单是动态的,即光标在不同窗口其菜单也不同。其中,File(文件)菜单主要是有关SAS文件调入、保存及打印的功能。Edit(编辑)菜单用于窗口的编辑(如清空、复制、剪切、粘贴、查找、替换)。Locals(局部)菜单与当前正在进行的操作有关,如果你正在程序窗口中编辑程序,则Locals菜单有提交运行、调回修改等项,如果在运行记录窗口或输出窗口则Locals菜单项根本不出现。Globals菜单内容比较复杂,它可以打开被关闭的程序窗口、运行记录窗口、输出窗口、图形窗口,可以进入SAS提供的各个独立模块。主菜单下是一个命令条和工具栏菜单,命令条中可以键入SAS的显示管理命令,工具栏图标提供了常见任务的快捷方式,比如保存、剪切、复制、粘贴等。工具栏图

标的解释如下:

Submit→ 提交编辑窗口中的程序

New →清空编辑窗口

Open→打开文件到编辑窗口。用户指定一个文件调入到编辑窗口内。这个文件从此与编辑窗口相关联,以后的存盘操作将自动存入这个文件。

save→ 存盘,保存编辑窗口内容,注意如果此窗口已经与一个文件相联系的话此功能将覆盖文件的原有内容而不提示。

Print→ 打印当前窗口内容

Print preview → 打印预览。

Cut→ 剪切选定文本。

Copy→复制选定文本。

Paste→ 粘贴。注意这些操作是对Windows剪贴板进行的,可以用来与其它Windows应用程序交换文本、数据等。剪切或复制到剪贴板的内容可以被其它应用程序粘贴,其它应用程序放到剪贴板的内容也可以粘贴到SAS的编辑窗口中。 Undo→ 撤销刚才的编辑操作。

DOS prompt→ 临时进入DOS。

Browse → 打开WWW浏览器并进入SAS公司的主页www.sas.com。

Directories→进入Directory(目录)窗口,可以浏览各SAS目录的内容,可以浏览目录中的数据集、SAS目录的内容。

SAS/ASSIST→启动SAS的菜单驱动界面SAS/ASSIST。

Help→ 启动Windows的帮助系统进入SAS的帮助。

(二)SAS基本概念

1.SAS程序

SAS强大的数据管理功能、分析功能等都可以通过编程来实现。SAS程序(Program)的基本单位是语句,每个语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,用分号结束。SAS程序中的空格、空行一般可以任意放置。SAS程序由两种“步”构成,一种叫数据步(data step),一种叫过程步(proc step),分别以DATA语句和PROC语句开始。数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。数据步和过程步由若干个语句组成,一般以RUN语句结束。

SAS数据步的一般形式为:

DATA 数据集名;

语句1/选项;

语句2/选项;

„„

RUN;

SAS过程步的一般形式为,

PROC 过程名 DATA = 输入数据集 选项;

过程语句1/选项;

过程语句2/选项;

„„

RUN;

在SAS程序中可以加入注释,注释使用/*和*/在两端界定,这种注释可以出现在任何允许加入空格的位置,可以占多行。

2.SAS数据集

SAS数据集(SASData sets)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同类型的值,比如整数值、浮点值、时间值、字符串、货币值等等,最常用的数据类型是数值型和字符型。数据集的每一行叫做一个观测(Observation),每列叫做一个变量(Variable)。

在SAS中,数据集名、变量名等由英文字母、数字、下划线组成,第一个字符必须是字母或下划线,一个名字最多用8个字符,大写字母和小写字母不区分。 数据集可以用数据步生成,对于小量的数据,用CARDS语句和空语句把数据夹在中间放在数据步程序中就可以用INPUT语句输入数据:

data数据集名;

input变量名1(¥)(n1一n2)变量名2(¥)(n3一n4)

变量名3(¥)(n5—n6)„;

cards;

数据行;

run;

括号中是可选项。一般一个观测中所有变量的值放在一行,称为一个数据行,数据行之间用回车隔开。当某一变量是字符型变量时,input语句中与该变量对应的变量名后面要有一个“$”符号,以空格与前后隔开,数值型变量则不需要;变量名后面加(n1—n2)等选项是指定该变量在数据行中所占据的列起始位置与结束位置,要求数据行必须要对齐。如果没有指定变量的位置,数据行中各变量之间用空格隔开。

如果数据量很大,直接把数据放在程序中不利于程序和数据的维护。这时,一种办法是把原始数据放在一个普通的文本格式的文件中,然后用INFILE语句指定输入文件名:

data数据集名;

infie’带路径的文本文件名’;

input变量名1(¥)(nl—n2)变量名2(¥)(n3—n4)

变量名3(¥)(n5—n6)„;

run;

SAS还可以读入其它格式的文件,比如FoxPro、Excel等微机格式数据文件。,这样的读入不用SAS语言完成,而是使用SAS系统File菜单中的Import命令完成。

3.SAS数据库

SAS数据库(Library)可以存放多个SAS数据集。有三个预定义的SAS数据库:WORK、SASUSER、SASHELP。其中,WORK数据库叫做临时库,存放在其中的SAS数据集叫临时数据集,这些临时数据集在退出SAS系统时会被自动删除。SASUS-ER库中的数据集是永久数据集,退出SAS时文件不会被删除。SASHELP库保存与SAS帮助系统、例子有关的数据集,是永久的。

操作时,我们把作为中间结果使用的数据集或练习用的数据集作为临时数据集保存,而需要以后再用的数据集应该保存为永久数据集。临时数据集和永久数据集的区别是:临时数据集可以用单水平名,即只有数据集名,比如DATAl;而永久数据集名由两部分组成,前一部分是它的库名,后一部分才是数据集名,两部分中间用小数点连接,比如SASUSER.DATAl表示。DATAl和SASUSER.DATAl是两个不同的数据集。

(三)SAS/INSIGHT简介

SAS的使用方法一般是输入一个程序,运行,修改,最后在输出窗口得到结

果。随着图形界面、用户友好等程序思想的发展,SAS也逐渐提供了一些不需要学习SAS编程就能进行数据管理、分析、报表、绘图功能,其中做得比较出色的一个是SAS/IN—SIGHT模块。SAS/INSIGHT提供了数据交互输入、数据探索、研究分布、相关分析、各种图形等功能。这里我们简单介绍SAS/IN—SIGHT的简单使用。

要启动SAS/INSIGHT,选Globals ∣Analyze ∣ Interactivedata analysis菜单,首先出现选择数据集的窗口,这是SAS/IN—SIGHT必须先选择一个要分析、观察的数据集。如果要生成新数据集,按New按钮,如果要打开已有数据集,按Open按钮。

数据窗口标题行显示了打开的数据集的名字,标题行下左上角有一个小的向右三角,这是数据窗口的菜单三角下方的数字是观测行数,右方的数字是变量个数。窗口内每行最左边的方块是观测的绘图标记,用于在图形中标记标量;然后是观测序号;再往右是各变量的值。数据窗口中的各变量用作列标题,在每一个变量名的上面有两个标签,右边一个代表变量的量测水平,分为区间变量(Int)和名义变量(Nom)。区间变量是取连续值的变量,只能为数值;名义变量是取离散值的变量,一般为字符型,也可以取数值。变量名上面左边的标签代表变量在分析中的缺省用途。

数据窗口可以用来建立新数据集。在SAS/INSIGHT内用“File ∣ New”菜单或在启动INSIGHT的窗口按“New”按钮。这时出现一个空的数据窗口,可以直接输入数据,各列自动取变量名为A、B、C、„,而且量测水平自动定义字符型变量为名义变量(Nom)、数值型为区间变量(Int)。为了修改变量名和变量的标签,从数据窗口的菜单选Define Variables,出现定义变量窗口,在这里可以修改变量名,给变量加标签(Label),可以选择变量的量测水平,可以规定变量的用途。变量的标签是对变量的一个可以长达40个字符的描述,可以用于以后的输出,可以用汉字。为了保存输入的数据集,选“File ∣Save ∣ Data”菜单,选择数据库,输入一个数据集名,按OK钮就可以保存数据集。

1.一维数据探索

SAS/INSIGHT提供了十分方便的数据探索功能。对一维数据,可以作直方图、盒形图、马赛克图,对二维数据,可以作散点图、曲线图、散点图矩阵,对三维数据可以作旋转图(三维散点图)。在图上可以选定一些观测,这些选择结果会同时反映在数据窗口和其它图中。

用“Analyze ∣Histogram/Bar Charts(Y)”菜单可以打开一个图形窗口生成某变量的分布直方图。直方图的每一个条形代表了绘图变量在一个区间的取值情况,条形高度为组频数,即取值在这一区间的观测个数。单击一条形选中在此

范围的观测,数据窗口的相应观测也被选定了。如果双击某一条形,就可以在选定相应观测的同时弹出一个检查观测窗口,窗口中显示各被选中的观测序号,以及其中一个观测的各变量值。这样可以很方便地检查图中各部

分所对应的观测。为取消选定,只要在图中空白处单击即可。

作出的图形有一个方框包围。如果想改变图形大小,可以单击方框使其变粗,然后拖动四个角中的一个,就可以把图形放大或缩小。甚至还可以把一个角向其对角方向拖动一直拖过对角,这样可以改变图形的横纵轴方向。拖动边框可以把图形移动到窗口内其它位置。

图形中提供了一个设置菜单,可以单击图形边框角上的向右箭头或在图形内右键单击来打开。菜单内容包括Ticks,可以设置坐标轴的具体画法;Axes用来指定画不画坐标轴;Observations用来指定是否画观测;Values指定是否标出各条形高度值。

盒形图是另一种表现数值型变量分布的图形。用“Analyse ∣BoxPlot/MosaicPlot”可以作出盒形图。从图形菜单中选Values可以标出图中重要数据值。盒形的中间有一条粗线,这是分析变量的中位数的位置,盒子上边线是分布的四分之三分位数,下边线是分布的四分之一分位数,盒子上下边线包含了分布的中间50%的观测。盒子的长度叫做分布的四分位间距,其作用类似于标准差,可以反映数据分布的分散程度。从盒子边线向外画了两条线叫做触须线,最长可以延伸到四分位间距的1.5倍,但是如果已经到了数据的最小值或最大值处就不再延伸。如果触须线没有达到数据的极端值,则这些数据点用触须线以外的点来画出,一般认为这样的点是异常点。从盒形图可以看出数据的偏斜情况,比如如果看到盒子的下半部比上半部长,而且下触须线比上触须线长,说明变量的分布略左偏。

用盒形图菜单中的“Means”选项可以在盒形图上加画一个菱形,菱形的中间代表分布的平均值,菱形端点到中间距离为两倍标准差。如果是变量服从正态分布,菱形上下端点之间应该包含大约95%的观测。平均值和中位数的比较也能反映变量的偏斜情况,平均值低于中位数可能左偏。

单击或双击盒形图的某一部分(盒子上半部或下半部、触须线、极端值)可以选定观测。

Analyze菜单的“Box Plot/Mosaic Plot”命令对连续型变量作盒形图,对离散型变量将作马赛克图。马赛克图一般不对单个变量作,而是对两个离散变量来作。

2.二维数据探索

SAS/INSIGHT可以作曲线图、散点图、散点图矩阵,可以在散点图中刷亮

观测。

曲线图有一个取值由小到大的X变量,有一个或几个Y变量,以X变量为横坐标对Y变量画曲线,可以同时画出多条曲线。用“Analyse ∣Line Plot”,弹出变量对话框,选定X变量(横坐标)、Y变量(纵坐标),可以画出曲线图。单击曲线上某一个点可以显示其观测序号,双击可以检查观测。可以在曲线图窗口中选主菜单的“Edit ∣Window ∣ Renew”,可以再弹出变量窗口,改变标签变量。用图形菜单(右键或单击向右三角)中的Observations可以画出各个数据点的符号。

散点图也有一个X变量和一个Y变量,但不要求X变量有从小到大的次序,画图不用连线而是用散点画出每一对X、Y坐标。用“Analyze ∣ScatterPlot”菜单,弹出变量对话框,在其中选X、Y变量并指定Label变量。单击“OK”即可作出散点图。

单击一个点可以显示其观测序号,双击可以检查观测。

为了在散点图中选定多个点,SAS/INSIGHT还提供了一种称为“刷亮(Brushing)”的操作。在图中拖动鼠标光标可以拖出一个小长方形,在这个长方形中的点都被选中,称它为刷子。选中的点在数据窗口也被选中,可以在数据窗口翻页查看,或用数据窗口的Find Next菜单命令查看,或在数据窗口用Move to First菜单命令把选中的点移到最前查看。双击长方形(刷子)可以弹出检查观测窗口,在那里可以逐个查看选中的观测内容。

拖动刷子的角可以改变其大小。拖动刷子内部可以移动它的刷亮位置,使进入刷子的点被选中,而离开了刷子的点被取消选中。可以同时用附加选中(Ctrl单击)的办法加选不在刷子内的点,这些点还可以显示标签。在拖动刷子时如果同时按住Shift或Ctrl键则为附加选定,即进入刷子的点被选中而离开刷子的点仍保持被选中。可以按住Shift或Ctrl键拖出第二个刷子,这时第一个刷子不再显示但它刷亮的点仍保持刷亮,移动第二个刷子时如果按住Shift或Ctrl键仍可保持已有选定。为了取消所有选定,只要点击图内空白处。

散点图矩阵画出多个变量两两间的散点图以考察多变量关系。用“Analyse Multivariate(Y’s)”,在变量对话框,选定变量,并选定“Output”按钮,在弹出的对话框中,选中“Scatter Plot Ma—trix”,单击“0K”。

散点图矩阵除了可以同时看到多个散点图的优点外主要是在一个散点图中被选中的点在其它散点图和数据窗口中也同时被选中。这样,我们可以在一个图中选一个极端点,看它在其它图中是否也处于极端位置。在一个散点图中刷亮的点在其它散点图中也同时被刷亮,可以移动刷子,同时其它散点图中被选中的点也在变化。

SAS/INSIGHT提供了自动移动刷子的功能。在拖动刷子时松开鼠标按钮,类似于“抛出”刷子,刷子就可以按抛出的方向继续移动并反弹。不过现在还较难控制自动移动的速度,有时移动过快。

3.三维数据探索

SAS/INSIGHT对三维数据可以作称为旋转图的三维散点图。启动菜单“Analyze ∣ Rotating Plot”,可以生成一个三维散点图。

这种三维散点图之所以称为旋转图,是因为坐标系可以在三维空间绕原点任意旋转。图形的左侧有一个小工具栏,其中有向上、下、左、右、逆时针、顺时针旋转的图标,再往下有一个滚动条,用它来规定自动旋转的速度。左下角是图形的菜单(向右的三角形)。

为了旋转坐标系,单击左侧的旋转方向图标。按住旋转图标可以连续旋转。按住Shift或Ctrl再旋转可以实现自动旋转。当鼠标光标移到图形的四个角时光标形状变成了手的形状,单击可以旋转,拖动可以连续旋转,拖动时“抛出”可以自动旋转。自动旋转中可以随时拖动图形以改变旋转方向。

4.图形的调整

SAS/INSIGHT提供了很强的调整绘制的图形的功能。比如,调整坐标轴的画法,点的大小、符号、颜色,隐藏某些观测,等等。

给不同观测使用不同的符号和颜色画点有助于迅速区分不同类观测的特点。用“Edit ∣Windows ∣ Tools”菜单可以打开一个工具窗口,如图2。这个窗口可以改变观测符号的颜色、符号,连线的线性、线宽,可以放大图形局部。在上述的各种图中或在数据集中选定观测,按一下工具窗口中的颜色和图形,就给这些观测规定了绘图的颜色和符号。为了改变绘点符号的大小,调用图形菜单(图形边角上的向右三角符号)中的Marker Sizes菜单可以选择一个合适的符号大小。利用一个分类变量来决定不同的绘点符号除了对每一类观测分别选定,然后指定绘点符号的办法,还可以选定这一分类变量,然后单击图2 工具窗口工具栏中绘点符号下面的多种符号的长棒形图标,可以自动为每一类分配一个绘点符号。

不同类观测用不同的颜色和符号来绘点是一种强有力的数据探索手段,恰

当使用可以直观地发现不同类型观测的区别。

5.分布研究

SAS/INSIGHT提供了很强的一维分布研究功能。对连续型变量,除了可以

画直方图、盒形图外,还可以作各种统计表,比如矩、分位数表,可以在直方图上画拟和密度曲线,可以检验分布是否来自正态、对数正态、指数,威布尔分布,等等。对离散型变量,可以画马赛克图、条形图、频数表。

图2 工具窗口

启动“Analyze ∣Distribution(Y)”菜单,出现选择变量对话框,选定一个变量,按OK可以打开一个新窗口,显示其分布的直方图、条形图、矩统计量表、分位数表。

在打开了某变量分布的窗口之后主菜单中的Tables、Graphs、Curves菜单被开放。在Tables菜单中可以选加一些统计表,比如Frequency Table是频数表,为每一观测值的频数、累计频数、百分比,C.I.for Mean可以计算均值的各种置信度的置信区间,Location Tests用于检验均值为某常数值(一般是0)的假设,可以用t检验、符号检验、符号秩检验等。

在Graphs菜单中已选了直方图、盒形图,还可以作QQ图,即分位数一分位数图。如果变量服从正态分布,QQ图的散点应大致在一条直线附近变动。QQ图的各种不同形状能够反映出变量分布的偏斜情况和重、轻尾情况。在QQ图中也可以选观测、刷亮等。画出QQ图后选主菜单中的“Curves ∣QQ Ref Line”可以为图中散点画一条拟和直线。

除了可以作正态分布QQ图外,还可以作对数正态,指数分布、威布尔分布的QQ图。对数正态要指定参数Sigma,威布尔分布要指定形状参数C。

SAS/NSIGHT为研究一维变量分布除画直方图外还提供了两类分布密度估计:参数估计和非参数估计。参数估计可以拟和正态、对数正态、指数、威布尔分布密度。非参数估计使用核估计。

为了作变量密度的核估计图,选“Curves ∣Kernel Density”,弹出一个对话框,可以选三种核函数:正态核、三角核、二次函数核,可以自动拟和最优的密度估计(方法为AMISE)或者自己指定平滑参数C。

在“Curves”菜单中还提供了对样本经验分布函数的估计。选“Curves ∣ Empirical CDF”即绘制样本经验分布函数。选“Curves∣ CDF Confidence Band”并选一个置信区间可以在经验分布函数两边画分布函数的置信区间。

用经验分布函数估计分布函数相当于用直方图估计分布密度。分布函数也可以用参数分布函数(如正态分布)来估计。选“Curves ∣Parametric CDF”并选分布类型可以画出估计的分布函数。

SAS/INSIGHT还可以进行分布检验,可以检验数据是否来自某一类分布(参数未知),或检验数据是否来自某一特定分布(参数已知)。选“Analyze ∣ Test for Distribution”,并选择是检验正态、对数正态、指数、威布尔分布中哪一个。

如果要检验数据是否来自某一特定分布,选“Curves ∣ Test

for a Specific Distribution”,并指定分布类型、分布参数,可以计算检验的

Kolmogorov D统计量及相应户值。

6.回归分析

用“Analyze ∣ Fit(Y X)”,并选定Y变量(因变量)、X变量(自变量),即可自动拟合出一条回归直线。在拟合了直线后,为拟合多项式曲线,只要选"Curves ∣ Polynomial”,然后输入阶次(De—gree(Polynomial)),就可以在散点图基础上再加入一条多项式曲线。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。

样条曲线是一种非参数回归的曲线拟合方法。为拟合样条曲线,只要选“Curves ∣Spline”,使用缺省的GCV准则(广义交叉核实)来选取光滑系数,就可以在散点图的基础上画出样条曲线。可以用光滑系数c的滑块来调整曲线的光滑程度/拟合优度。

核估计是另一种非参数回归的曲线拟合方法。为了画核估计曲线,只要选“Curves ∣ Kernel”,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的GCV法,就可以把核估计图附加到散点图上。

局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。只要选“Curves ∣ Loess”,SAS/INSIGHT就缺省使用一阶(线性)局部多项式拟合一条曲线。改变Loess的系数alpha可以改变曲线的光滑度。

SAS/INSIGHT还可以拟合广义线性模型,在选“Analyze ∣Fit(YX)”之后,选定因变量和自变量,然后按“Method”按钮,出现选择模型的对话框,选定因变量的分布类型(Response Dist.)、联系函数、估计尺度参数的方法之后,就可以拟合广义线性模型。

回归分析会输出一些数据诊断统计量,这是很重要的结果。

7.主成份分析

在SAS/INSIGHT中可进行主分量分析。选“Analyze ∣ Mul-tivariate(Y’s)”,弹出选择变量的对话框,选定Y变量,然后按Output按钮,选中主分量分析(Principal Component Analysis)复选框,OK后就得到了多变量分析结果(包括原始变量的简单统计量、相关阵)和主分量分析的结果(特征值、累计贡献率、特征向量)。另外还画了前两个主分量的散点图。

四、Market简介

Market(The Market Research Application(MRA))是SAS/STAT中关于市场研究分析的专门化模块。市场研究主要是分析和估计消费者与潜在消费者的偏好及选择。市场研究分析是应用数据分析的一个领域,它的目的是支持市场决策。Market提供了市场研究分析的统计方法,并以形象的图形显示这些分析的结果。SAS系统的用户可以通过鼠标方便地选择有关的统计方法进行市场研究,这些统

计方法是:

*结合分析(Conjoint Analysis)

*对应分析(Correspondence Analysis)

*离散选择分析(Discrete Choice Analysis)

*多维尺度分析(Multidimensional Scaling Analysis)

*多维偏好分析(Multidimensional Preference Analysis)

用户在SAS软件的命令行键入‘market’,然后在弹出的对话窗口中用鼠标选择要分析的数据集和相应的分析方法(上面5种方法之一),并按“OK”确定,这时将会出现变量选择对话框(如果是多维尺度分析将会先弹出数据集必须是相似矩阵或距离矩阵提示,按“Continue”,再按“OK”),选择变量并赋予这些变量在分析中所代表的角色,按“OK”便可出现直观的分析结果。在结果窗口中,用鼠标单击"Variables”按钮可以回到变量选择窗口、单击“Results”按钮可以在窗口中显示各种数据结果、单击“Plots”按钮可以观看各种直观图形。每种分析方法的操作和结果解释请参看第十三章中的例子。采用这些方法进行分析时要特别注意相应的数据集的正确格式。

【思考与训练】

1、什么是定性预测和定量预测?

2、什么是德尔菲法,如何组织?

3、领先指标法预测的步骤。

4、TSP和SAS应用预测软件包的预测程序和注意事项。

5、某市商业总公司欲对本公司下一年度的销售额进行预测,由三名有权威的管理人员组成预测小组,他们的预测结果如下表所示:(单位:万元)

根据以上资料,估算:

(1)各位管理人员的预测期望值;

(2)若给予管理人员A、B、C的权数分别为7、6、5,试估算该公司下一年度销售预测值(保留两位小数)

6、某公司99年上半年各月销售收入分别为:400万元,450万元,420万元,390万元,410万元,480万元。试用一次指数平滑法预测:

(1)取α=0.3时,预测99年7月份的销售额;

(2)取α=0.6时,预测99年7月份的销售额。

7

8、某地区农民10年人均年纯收入和该地区相应年份的销售额的资料如下:

要求:

(1)用最小平方法求出该一元回归方程中的参数,建立预测模型;

(2)假设模型的各项检验均通过,用该模型预测当年纯收入为1400 元的销售额(点预测)。

【案例应用】

第六章

市场预测方法

本章结构图

第六章 市场预测方法

【本章要点】

本章将主要介绍有关市场预测的方法,包括传统预测的定性和定量方法以及现代计算机软件包预测方法等。

【典案阅读】

【教学内容】

第一节 传统预测方法

【学习目标】

 知识点

1、定性预测和定量预测的主要方法有哪些? 2、比较区别专家预测法与德尔菲法的异同  技能点

各种预测方法的灵活应用

【讲授与训练内容】 一、 定性预测

定性预测是指不依托数学模型的预测方法。这种方法在社会经济生活中有广泛的应用,特别是在预测对象的影响因素难以分清主次,或其主要因素难以用数学表达式模拟时,预测者可以凭借自己的业务知识、经验和综合分析的能力,运用已掌握的历史资料和直观材料,对事物发展的趋势、方向和重大转折点作出估计与推测。定性预测的主要方法有指标法、专家预测法、销售人员意见综合法和购买意向调查预测法等。 (一)指标法

指标法又称朴素预测法,是通过一些通俗的统计指标,利用最简单的统计处理方法和有限的数据资料来进行预测的一种方法。这些统计指标包括平均数、增减量、平均增减量等。这里只介绍领先指标的预测运用,其他指标的预测运用将在后续章节中讲述。图形法是利用直观的图表来推测事物未来较短时期的变化发展趋势的方法。这两种方法都是最简单的非模型预测。 1、领先指标法

社会上的许多事物都可以看作是随时间流逝而不断发展的变量。比较各种变量变化的曲线图形,常常会发现某些变量的图形存在着明显的相似性,即某些曲线的起伏变化间距与另一些曲线的起伏变化间距几乎是相同的。就是说某一曲线

经过一段时间由波峰(或波谷)发展到了波谷(或波峰),而另一条曲线也以相同的时间从波峰(或波谷)发展到了波谷(或波峰)。根据这种情况,人们可以把发生在前的事物作为参照物,从而推测后发生相似事物的发展变化趋势。 (1)领先指标、同步指标和滞后指标

与预测对象的发展有相似性的变量可分为三类。一类是在变化时间上早于预测对象,即波峰或波谷的出现时间均早于预测对象,这类变量称为领先指标(或先行指标);第二类是变化时间与预测对象完全同步,即出现波谷与波峰的时间与预测对象相一致,它们被称为同步指标(或同行指标);第三类是在变化时间上迟于预测对象,它们被称为滞后指标(或后行指标)。

基本建设的投资,是机械产品、钢材、木材、水泥等建筑材料需求量的先行指标。根据国家公布的基本建设投资规划,可以预测一段时间后这些生产资料的需求情况。人口增长和人均收入的变化是生活资料需求量的先行指标。根据国家的人口规划和提高人民收人水平的计划,可以预测一定时期之后某些消费晶的需求量。基本建设对钢材、水泥和木材三大材料的需求量是同步指标,并且各需求量之间还有较为固定的比例关系。如果其中某种材料的生产或供应能力有限,则另外两种材料的需求也将受到限制。因此,通过研究“短线”(供应能力不足)材料可供数量的变化情况,可以预测供应能力有余材料的需求量。滞后指标有助于验证领先指标所表示的经济趋向是否真实。 2、领先指标法预测步骤

(1)根据预测的目标和要求找出领先指标。例如,预测化工产品的价格变动,可把石油价格变动作为领先指标。

(2)画出领先指标、同步指标、滞后指标的时间序列图。 (3)进行预测。

3、应用领先指标法的条件

必须指出,指标之间的关系是根据以往的经验和历史数据来确立的,国家的某些政策很可能已改变了指标之间以往的伴随关系,领先指标与预测对象之间的提前时间也不一定是常数。认真分析这些情况,确认指标之间的伴随关系到现在是否仍然存在、间隔时间有什么变化,是应用领先指标法进行预测的必要条件,也是减少预测风险的要求。领先指标法适用于诸如原材料价格的变动先于制成品价格的变动,教育事业的发展先于科学技术的发展等中短期预测。 (二)专家预测法

专家预测法是以专家为索取信息的对象,运用专家的知识和经验,考虑预测对象的社会环境,直接分析研究和寻求其特征规律,并推测未来的一种预测方法。其主要包括个人判断法、集体判断法和德尔菲法。

1、个人判断法

个人判断法是用规定程序对专家个人进行调查的方法。这种方法是依靠个别专家的专业知识和特殊才能来进行判断预测的。其优点是能利用专家个人的创造能力,不受外界影响,简单易行,费用也不多。但是,依靠个人的判断,容易受专家的知识面、知识深度、占有资料是否充分以及对预测问题有无兴趣所左右,难免带有片面性。专家的个人意见往往容易忽略或贬低相邻部门或相邻学科的研究成果,专家之间的当面讨论又可能产生不和谐。因此,这种方法最好与其他方法结合使用,让被调查的专家之间不发生直接联系,并给时间让专家反复修改个人的见解,才能取得较好的效果。 2、集体判断法

这种方法是在个人判断法的基础上,通过会议进行集体的分析判断,将专家个人的见解综合起来,寻求较为一致的结论的预测方法。这种方法参加的人数多,所拥有的信息量远远大于个人拥有的信息量,因而能凝集众多专家的智慧,避免个人判断法的不足,在一些重大问题的预测方面较为可行可信。但是,集体判断的参与人员也可能受到感情、个性、时间及利益等因素的影响,不能充分或真实地表明自己的判断。

因此,运用集体判断法,会议主持人要尊重每一位与会者,鼓励与会者各抒己见,使与会者在积极发言的同时要保持谦虚恭敬的态度,对任何意见都不应带有倾向性。同时还要掌握好会议的时间和节奏,既不能拖得太长,也不要草草收场;当话题分散或意见相持不下时,能适当提醒或调节会议的进程等。 3、德尔菲法

德尔菲法是为避免专家会议法之不足而采用的预测方法。这种方法的应用始于美国兰德公司,在国外颇为流行。这一方法的特点是,聘请一批专家以相互独立的匿名形式就预测内容各自发表意见,用书面形式独立地回答预测者提出的问题,并反复多次修改各自的意见,最后由预测者综合确定市场预测的结论。 德尔菲法进行市场预测的步骤

(1)做好准备。准备好已搜集到的有关资料,拟定向专家小组提出的问题(问题要提得明确)。

(2)请专家作出初步判断。在做好准备的基础上,邀请有关专家成立专家小组,将书面问题寄发各专家(如有其他资料,也随同寄发),请他们在互不通气的情况下,对所咨询的问题作出自己的初次书面分析判断,按规定期限寄回。 (3)请专家修改初次判断。为使专家集思广益,对收到各专家寄回的第一次书面分析判断意见加以综合后,归纳出几种不同判断,并请身份类似的专家予以文字说明和评论,再以书面形式寄发各专家,请他们以与第一次同样的方式,

比较自己与别人的不同意见,修改第一次的判断,作出第二次分析判断,按期寄回。如此反复修改多次,直到各专家对自己的判断意见比较固定,不再修改时为止。在一般情形下,经过三次反馈,即经过初次判断和两次修改,就可以使判断意见趋于稳定。

(4)确定预测值。即在专家小组比较稳定的判断意见的基础上,运用统计方法加以综合,最后作出市场预测结论。

【例】:某空调机厂对某种型号的空调机投放市场后的年销售量进行预测,聘请9位专家应用德尔菲法,进行四轮的征询、反馈、修改汇总后得到如下数据:

空调机销售量德尔菲法预测表 单位:万台

从表可以看出专家的第一轮意见汇总得出的中位数为27,极差为31。数据表明,专家的意见相当分散。专家根据反馈意见,大多数人修改了自己的意见并向中位数靠拢,因此,第二轮意见汇总后极差变小。但第四轮征询时,每位专家都不再修改自己的意见了,于是得出最终的预测值,可以认为年销售量将达到26万台,但极差达22万台。

(三)销售人员意见综合预测法

这里所指的销售人员除了直接从事销售的人员还包括管理部门的工作人员和销售主管等人员。销售人员意见综合预测法在实施过程中要求每一位预测者给出各自的销售额的“最高”、“最可能”、“最低”预测值,并且就预测的“最高”、“最可能”、“最低”出现的概率达成共识。

这种预测方法的具体做法是:假设第i位预测者(i =1,2,3,4,5„„n)给出的预测值为Fi j ,其中j = 1表示预测最高值,j = 2表示预测最可能值,j = 3表示预测最低值。最高预测只给出的概率是P1,最可能值给出的概率是P2,最低值给出的概率是P3 。

于是第i位预测者的预测值为Fi = ∑ Pi Fi j

i =1

n

若第i位预测者的意见权重为W i (i =1,2,„„n),则最终预测结果为:

Fi = ∑Wi Fi

【例】:某公司销售经理和两位副经理对某地区本公司的产品的销售量进行预测,得到如下数据,试求预测值。

经理的预测值为:

i =1

n

F1 = 0.3×2720+0.4×2510+0.3×2350 = 2525

副经理甲的预测值:

F2 = 0.3×1900+0.4×1800+0.3×1700 = 1800

副经理乙的预测值:

F3 = 0.3×2510+0.4×2490+0.3×2380 = 2463

最终预测值:

F = 0.6×2525+0.2×1800+0.2×2463 = 2367.6(万元)

(四)购买意向调查预测法

购买意向预测法是一种在市场研究中最常用的市场需求预测方法。这种方法与问卷形式征询潜在的购买者未来的购买量,由此预测出市场未来的需求。由于市场需求是由未来的购买者实现的,因此如果在征询中潜在的购买者如实反映购买意向的话,那么据此作出的市场需求预测将是相当有价值的。在应用这一方法时,对生产资料和耐用消费品的预测较非耐用品精确,这是因为对非耐用消费品的购买意向容易受到多种因素的影响而发生变化。

【例】:在某市区进行空调机需求的市场调查中,访问500个样本,被访者表明购买意向如下:

一定会买 150人 占30% 可能会买 75人 占15% 不能决定是否购买 125人 占25% 可能不会买 100人 占20% 肯定不会买 50人 占10%

总计 500人 占100%

对于上述的调查答案还必须进行某种加权处理才能得出符合实际情况的结论。如,被放着回答一定会购买或可能购买玩网包含夸大购买倾向的成分。被访者之所以具有这种夸大购买倾向的原因,一是为了给访问着一种满足,另一方面是因为回答时往往没有慎重考虑会影响狗阿米的多种因素,仅仅是脱口而出而已。类似的,即使是回答可能不会买或肯定不会买的被访者也有成为最终购买者的可能。根据这种分析,在实际处理时,可对每一种选择赋予适当的购买权重。如对一定会购买赋予权数0.9,可能会购买赋予权数0.2,肯动不会购买赋予权数0.02等等。

平均购买可能性=27%+3%+2.5%+0.6%+0.2%=33.3% 未来市场需求量=家庭总户数×平均购买可能性

假设这一地区共有家庭总数200万个,则该地区空调的未来可能购买量为:2000000×33.3%=666000

二、 定量预测

(一)移动平均法

移动平均法是取预测对象最近一组历史数据的平均值作为预测值的方法。这种方法不是仅取最近一期的历史数据作为下一期的预测值,而是取最近一组历史数据的平均值作为下一期的预测值,这一方法使近期历史数据参与预测,是历史数据的随机成分有可能互相抵消,平均之所含的随机成分就会相应减少。

移动平均法的“平均”是指对历史数据的“算术平均”,而“移动”是指参与平均的历史数据随预测值的推进而不断更新。当一个新的历史数据进入平均值时,要剔除原先参与预测平均得罪陈旧的一个历史数据,并且每一次参与平均的历史数据的个数是相同的。

∑X t- k +1

n K=1

其中,F表示预测值,X表示历史数据,n表示参与平均的数据的个数。

其计算公式为:Ft+1=

1 n

【例】:某公司根据2003年12月的某产品的销量,采用移动平均法预测2004年1月份的销售量情况,求预测值并分析其误差。

移动平均法计算表 单位:万元

(二)季节指数法

季节变动是指某些市场现象由于受自然气候、生产条件、生活习惯等因素的影响,在一定时间中随季节的变化而呈现出周期性的变化规律。如农副产品受自然气候影响,形成市场供应量的季节性变动;节日商品、礼品性商品受民间传统的影响,其销售量也具有明显的季节变动现象。对季节变动进行分析研究,掌握其变动规律,可以预测季节型时间数列的季节变动值。

季节变动的主要特点是,每年都重复出现,各年同月(或季)具有相同的变动方向,变动幅度一般相差不大。因此,研究市场现象的季节变动,收集时间序列的资料一般应以月(或季)为单位,并且至少需要有3年或3年以上的市场现象各月(或季)的资料,才能观察到季节变动的一般规律性。

季节指数法,就是根据预测目标各年按月(或季)编制的时间数列资料,以统计方法测定出反映季节变动规律的季节指数,并利用季节指数进行预测的预测方法。测定季节指数的方法大体有两类,一是不考虑长期趋势的影响,直接根据原时间数列计算季节指数;二是考虑长期趋势的存在,先将长期趋势消除,然后计算季节指数。

1、无趋势变动的季节指数预测法

如果时间数列没有明显的长期变动趋势,就可以假设其不存在长期趋势,直接对时间数列中各年同月(或季)的实际值加以平均,再将各年同月(或季)的平均数与各年的总平均数进行比较,求出季节指数,或将各年同月(或季)的平均数与各年的总平均数相减,求出季节变差,最后通过季节指数或季节变差来计算出预测值。

【例】某商品销售量5年的分季资料,假设该资料无长期趋势,

要求:

(1)设第六年第一季度的销售量为10吨,试预测第二季度的销售量; (2)设第六年上半年的销售量为27吨,试预测第三季度的销售量; (3)设第六年全年的计划销售量为60吨,试预测各季度的销售量。

预测计算过程如下:

注意,计算季节指数时,若以月为周期,则12个月的季节指数之和应为1 200%;若以天为周期,则一周7天的季节指数之和应为700%。如果计算时由于舍人误差,使季节指数之和不等于相应标准时,需用比例法将其调整为标准形态。同理,季节变差之和应等于0,否则也应作调整。

解(1),先根据已知的一季度销售量和一季度的季节指数,求出第六年的季平均数;再根据第六年的季平均数和第二季度的季节指数,求出第二季度的预测值。

第六年的季平均数=10÷60.18%=16.62

第六年第二季度的销售量=16.62 ×83.19%=13.82(吨) 用季节变差预测第二季度的销售量,则可直接计算: 第六年第二季度的销售量=(10+5.625)-2.375=13.25(吨)

解(2),先根据上半年的已知数和一、二季度的季节指数,求出第六年的季平均数;再根据第六年的季平均数和第三季度的季节指数,求出第三季度的预测值:

第六年的季平均数=27÷(60.18%-I-83.19%)=18.83 第六年第三季度的销售量=18.83×109.73%=20.66(吨) 也可用季节变差直接计算:

第六年第三季度的销售量=1.375+(27+5.625+2.375)÷2 =18.875(吨)

解(3),也需先求出第六年的季平均数,再根据第六年的季平均数和各季度的季节指数,求出各季度的预测值: 第六年的季平均数=60÷4=15

第六年第一季度的销售量=15×60.18%=9.027(吨) 第二季度的销售量=15×83.19%=12.4785(吨) 第三季度的销售量=15×109.73%=16.4595(吨) 第四季度的销售量=15×146.90%=22.035(吨) 仍可用季节变差直接计算:

第六年第一季度的销售量=15—5.625=9.375(吨) 第二季度的销售量=15—2.375=12.625(吨) 第三季度的销售量=15+1.375=16.375(吨) 第四季度的销售量=15+6.625=21.625(吨) 2、含趋势变动的季节指数预测法

市场现象时间数列的变动,大部分都是季节变动与长期趋势变动交织在一起

的。在研究其季节变动的同时,还必须考虑其长期趋势变动,把季节变动和长期趋势变动两种变动规律综合起来进行预测。

对含有两种变动趋势的时间数列求季节指数,最简便的办法是利用移动平均法计算出各期的趋势值,再将各期的实际值与对应期的趋势值相比较,计算出季节比率;接着把各年相同季节的季节比率加以平均,必要时再作一点修正,即求得季节指数。得到季节指数后,再根据趋势值的平均变动情况,求出预测期的趋势值,将其与对应期的季节指数相乘,就能得到所要预测的值。

以上例为例,销售量是含增长趋势的季节变动时间数列,按移动平均法来计算季节指数的过程见表。

季节比率计算表

注意,由于移动跨越期是偶数,移动平均数对应的时间是中点,因此需要对相邻的两个移动平均数再进行一次移动平均,得出趋势值才能正好与同期实际值一一对应。计算出趋势值和平均趋势变动情况后,即可推测在长期变动趋势影响下各期的趋势值。如第四年第四季度的趋势值为18.375,第五年第三季度与之相隔3期,平均趋势变动情况为0.66,则第五年第三季度的趋势值为:

18.375+3X0.66=20.355。之后,再与相应的季节指数相乘,便得到了该期的预测值。

季节指数计算表 (单位:%)

还有其他方法也能求出季节指数,限于篇幅,这里不再介绍。 根据上述已获得的资料,预测后续6个季度销售量的计算过程如下: 第五年第三季度预测值=(18.375+3×0.66)×120.54%=24.54(吨) 第四季度预测值:(18.375+4×0.66)×151.91%=31.92(吨) 第六年第一季度预测值=(18.375+5×0.66)×50.57%=10.96(吨) 第二季度预测值=(18.375+6×0.66)×76.98%=17.19(吨) 第三季度预测值=(18.375+7×0.66)×120.54%=27.72(吨) 第四季度预测值=(18.375+8×0.66×151.91%=35.93(吨)

季节指数计算表 (单位:%)

还有其他方法也能求出季节指数,限于篇幅,这里不再介绍。 根据上述已获得的资料,预测后续6个季度销售量的计算过程如下: 第五年第三季度预测值=(18.375+3×0.66)×120.54%=24.54(吨) 第五年第四季度预测值:(18.375+4×0.66)×151.91%=31.92(吨)

第六年第一季度预测值=(18.375+5×0.66)×50.57%=10.96(吨) 第六年第二季度预测值=(18.375+6×0.66)×76.98%=17.19(吨) 第六年第三季度预测值=(18.375+7×0.66)×120.54%=27.72(吨) 第六年第四季度预测值=(18.375+8×0.66)×151.91%=35.93(吨)

(三)指数平滑法

指数平滑法是取预测对象全部历史数据的加权平均值作为预测值的一种预测方法。指数平滑法对移动平均法有两个方面的改进,一是全部历史数据而不是一组历史数据参与平均;二是对历史数据不是采用酸酸平均而是采用加权平均,近期历史数据加较大权数,远期历史数据加较小权数。这和近期实力数据对预测有较大影响,远期历史数据影响较小是一致的。

指数平滑法的计算公式为:Ft+1 = 取值。

k-1

∑α (1-α) X t- k +1

k=1

k-1

其中,F表示预测值,X表示历史数据,α表示平滑系数,α在(0,1)中用α (1-α) 作为权重是合理的。因为 ∑α (1-α)

k=1

k-1

= α 1-(1-α)

= 1。

显然当k=1时,历史数据最接近,权重为α,当k逐渐增大时,历史数据逐

k 渐远离,这时权重为α (1-α) 按指数规律逐渐缩小。直接应用上述公式机型预测在操作上并不可行,现做如下变形:

∞ k-1

Ft+1 = ∑α (1-α) X t- k +1

k=1

= α X t + α (1-α) X t- 1 + α (1-α) X t- 2 + „

2

= α X t + (1-α) Ft 所以有:

Ft+1 = α X t + (1-α) Ft

这就是指数平滑法的简化形式。在应用这一公式时直接取F1=X 1。 例如:某公司根据最近12年的销售额,预测第13年的销售额情况,用一次指数平滑法进行预测。(α =0.3)

关于平滑系数的取值直接影响预测结果的精度。一般平滑系数按如下的原则选取:

①对于斜坡趋势型的历史数据,一般可取较大的平滑系数0.6< α <1; ②对于水平型历史数据一般可取较小的平滑系数0< α <0.3; ③对于水平型和斜坡趋势型混合的历史数据,一般可取适中的平滑系数 0.3≤α ≤0.6。 (四)因果分析法

因果分析法也叫回归分析法,就是分析市场变化的原因,找出原因与结果的

联系的方法,并据此预测市场未来的发展趋势。

在生产和流通领域的活动中,经常遇到一些同处于一个统一体中的变量。在这个统一体中,这些变量是相互联系、相互制约的,它们之间客观上存在着一定的关系。为了深入了解事物的本质,需要利用适当的数学表达式来表明这些变量之间的依存关系。微积分是研究完全确定的函数关系。然而,在许多实际问题中,不是由于变量之间的关系比较复杂,使人们无法得到精确的数学表达式,就是由于生产或实验过程中不可避免地存在着误差的影响,而使它们之间的关系具有某种不确定性。

因此,需要用统计方法,在大量的实践或观察中,寻找隐藏在上述随机性后面的统计规律性。这类统计规律称为回归关系,有关回归关系的计算方法和理论通称为回归分析法。用回归分析法来分析一个或几个自变量(y)的变动,推测另一个自变量(x)变动的方向和程度,就是回归预测。回归预测主要分一元线性回归预测、多元线性回归预测、非线性回归预测等。

1、一元回归预测法

一元线性回归预测是运用一个在事物变动的诸因素中只要的和决定作用的自变量的变动,来推测另一个因变量的变动情况并得出它们之间的关系式,从而进行市场预测的一种方法。因为这两个变量之间的关系式一般呈线性关系,所以叫作线性回归预测法。再以它们相关的方向不同,又有正相关(顺相关)与负相关(逆相关)之分。例如,某地区居民人均年收入增加,某种耐用销售品的销售量也随之增加,其变动方向一致,因此称为正相关。如果根据商品流通费率的大小来预测商业利润的增减,由于流通费率增大,利润率就会随之降低,其变动方向是反的,就称为负相关。

一元线性回归法的公式为:Y = a + bx

上式中Y的因变数,x为自变量,即引起市场变化的某影响因素;a、b为回归系数,其中a是截距,b为斜率。在市场预测中,回归分析则是通过历年数据确定回归系数a、b之值。推算a、b值的常用方法是最小二乘法。公式为:

1 1 - -

a = ∑y -b = y - b x

1 ∑x y -∑x ∑y

b ==

∑x -∑x )

n∑x y -∑x ∑y n∑x -(∑x )

【例】:现在以1986年至1990年某地区居民人均年收入与某企业生产的某

种耐用消费品的年销售量为例。

根据上述公式,得:b = 1.08 ,a =5

据此建立的预测模型为:

y^= 5 + 1.08 X

当1991年居民人均年收入为900元时,该企业的年销售量预测值为:

y^ = 5 + 1.08 × 9 = 14.72(万件)

2、多元线性回归预测法

在市场变化中,一般影响因变量的的因素不止一个,所以需要研究多元回归。多元回归分析的理论与一元基本相同,只是表达式和计算都较为复杂。多元线性回归的一般公式为:

y = a + b 1X 1 + b 2 X 2 + … + b n X n

式中:y — 因变量

X i — 变量

a — 回归系数 b i — 回归系数

我们以二元线性回归模型为例进行分析,二元线性回归模型的公式为:

y = a + b 1 X 1 + b 2 X 2

利用最小二乘法可以求得3个标准方程式,即分别对a、b1、b1求偏导数,并令函数的一阶导数等于0。可得到如下三个标准方程式:

∑y = na + b 1 X 1 + b 2 X 2

2

∑X 1y = a∑X1 + b 1∑X 1 + b2∑X1X2

2

∑X 2y = a∑X2 + b 1∑X1X2 + b 2∑X 1X 2

2 2

解上列3个方程式,将X1、X2、y、X 1y、X 2y、X 1、X 2、X 1X 2各项数值之和代入3个方程式进行运算,求出三个参数a、b 1、b 2的数值。最后将参数

代入多元方程式,即进行预测。

第二节 现代预测方法

【学习目标】

 知识点

1、时间序列软件包TSP的工作原理和过程 2、策略应用资讯系统SAS的基本程序  技能点

两种现代预测方法的灵活应用

【教学内容】

一、时间序列软件包TSP

时间序列软件包TSP(time series program)是由美国TSP公司开发的一种应用统计预测软件包,由于它具有命令容易记忆、操作简单、运用范围广等特点而被广泛应用。TSP具有对样本数据进行统计描述、相关分析、回归分析等功能,并且能够进行移动平均、指数平滑、线性回归、非线性回归和给定方程的预测,还可以对联立方程及模型进行模拟等。现以TSP652版本为基础介绍TSP的基本功能。

(一)TSP工作文件的编辑

TSP软件包的各种功能是通过命令和命令菜单的方式实现的,因此,只要知道各命令菜单的功能和对应各功能的命令即可实现各种分析。

1.进入TSP系统。假设TSP是保存在硬盘C区的TSP子目录下,在DOS环境下先进入TSP子目录,然后键人TSP命令,回车(用/表示)。在一系列显示之后便进入TSP系统。

2.退出TSP系统。在TSP系统内,输人命令exit,屏幕显示:abandon the cur—rent work file(y/n),选择y,便会退出TSP系统,返回到DOS系统。 3.工作文件的建立。TSP软件包可以分析多种属性的数据,包括年度性质、季节性质、月度性质的数据和非时间性质数据。在处理数据之前,需要设定数据的属性及范围。工作文件就是说明分析数据属性和范围的文件,建立了工作文件就建立了分析数据的环境。TSP统计分析功能的实现,是在工作文件内进行的。 在用户进入TSP系统之后,屏幕的第一个显示区(状态显示区)会显示: No work file in memory—Use CREATE or LOAD command

这是计算机提示用户还没有建立工作文件,需要用CREAT命令建立工作文件,或用LOAD命令从磁盘上引导一个事先已经建好的工作文件。在内存中建立工作文件,可以用F3下的菜单来实现,具体方法是:

按F3键,屏幕显示一个菜单。在菜单中选择(1)work file(begin session),回车后在下级菜单中选择(1)create a WF in RAM,回车。以上步骤可以简记为F3→(1)work file(begin session)→(1)create a Wf in RAM。用户也可以直接输入CREAT命令(简记输入CREAT)建立工作文件。执行CREAT命令或进行上述选择后,屏幕显示:

该菜单询问用户建立何种属性的文件:(U)非时间性;(A)年度性;(Q)季度性;(M)月度性的文件。用户在上述4项选择中用方向键选中一项,也可以直接选小括号内的字母。假设用户分析的是年度性质的数据,可选择A,屏幕显示: Frequency//Annual starting date?

输入样本数据的起始年份(如1980),屏幕显示: starting date//1980 ending date?

输入样本数据的终止年份(如1999),回答完上述选项后,屏幕的状态显示区会显示 状态:

range 1980—1999 current SMLP 1980—1999 series current=0 maximum=500,至此内存工作文件已经建成。建立非时间属性、月度属性或季度属性的工作文件的方法类似。

建立内存工作文件时,时间属性数据序列时间的表达方式如下:年份数据用一个四位整数表示,如1980,1987等;季度属性的数据可以在年份的后面加一位小数,如1980.1表示1980年第一季度;月度属性的数据在年后加两位小数,如1980.12表示1980年的12月份。

4.磁盘工作文件的导入。如果磁盘上存在过去已建好的工作文件,可以将此工作文件导人到内存中,具体方法是:先用CD命令进入工作文件所在的子目录中,再选择F3一(2)load a Wf from disk,或键人命令LOAD,屏幕显示;

file name?输入磁盘上的工作文件名,就可以将该工作文件导入到内存中。 5.内存工作文件的存盘。将内存中的工作文件存盘的方法是:选择F3一(3)save WF to disk,或键人命令SAVE,屏幕显示:file name?,输入文件名(如FX),系统便将该文件保存到当前子目录下。工作文件存盘后,在当前子目录下会出现FXWF和FX.H文件。内存工作文件最好在分析完成之后再存盘,这样,存盘的工作文件就包含所有分析的信息。 (二)数据序列的编辑

数据序列也称数据文件,是由一组样本数据构成的一个有序的数组,是TSP系统分析的对象,也是工作文件中操作的对象。

1.数据序列的建立。内存工作文件建立后,在工作文件中的数据序列的时间属性和时间范围也就随之确定,用户可以在工作文件中建立数据序列,数据序列建立的方法是:选择F4→(3)data editor,或输人命令DATA,屏幕显示,series list?回答所要建立的数据序列名(如SR),屏幕上显示数据输入状态,如附表l所示。

其中Obs代表数据序列的时间,由计算机自动按序给出,SR为数据序列名。方框内是

输入数据的位置。用户按提示信息依次输入数据序列的各个观察值。当所有数据输入完成之后,再输入X,系统自动在内存中建立数据序列,同时返回到TSP最初的显示状态,屏幕上方状态区域内会增加新建的数据序列名SR。重复上述操作,可以将要分析的数据序列都输入到内存中。在输人数据时,各个数据序列的名称不能重复,以免数据被覆盖丢失。TSP软件包中有6个保留字AR、C、COEF、MA、NA、PDL、RE—SID不能作为序列名,它们是系统默认的有特殊意义的参数名。

2.数据序列的修改。在数据序列输入状态下,屏幕上方显示的内容是对数据进行修改的命令,B表示返回到前面一个年份,I#表示在年份为#的位置上插入1个数据,D#表示删除年份为#位置上的数据,N#表示将光标转移到年份为#的位置

上,X表示保存数据并退出数据录入状态。如果要修改磁盘中已有的数据系列,要先将该数据系列调入内存,再用DATA命令进行修改,具体修改方法同上。 3.数据序列的存盘。当用SAVE命令保存当前工作文件时,建立在内存中的数据序列会与其他信息构成一个整体形成一个工作文件保存在磁盘上。有时我们会在不同的工作文件中分析同一个数据序列,为方便起见,可以将该数据序列单独存盘。数据序列存盘的方法是:选择F5→(2)Data bank operation→(2)store series in DB,或输人命令STORE,屏幕显示:series list?回答数据序列名,这时小写字母的数据序列名会变成大写的序列名,表明数据序列已存盘。用户也可以同时将内存中的多个数据序列存盘,输入的序列名之间用空格分开。存盘后的数据序列文件以DB为后缀的文件形式存在。

4.数据序列的读取。保存在磁盘上的数据序列,可以读取到当前工作文件中。读取数据序列的方法是:选择F3→(2)Data bank operation→(1)Fetch series from DB file,或输人命令Fetch,屏幕显示:series list?键入所要读取的数据序列名(如SR),屏幕操作区便会显示被读取序列的文件名、时间范围以及读入的时间范围,同时屏幕上方状态显示区会增加文件名为SR的序列,表明序列SR已读入内存。如果当前工作文件的时间范围在原数据的时间范围之内,则直接将数据读入;若超出原数据时间范围,超出时间的数据是缺省数据。 5。生成数据序列。有时根据分析的需要,要由原有的数据序列生成一个新的数据序列。如内存中已有X1,X2两个数据序列,利用TSP可以生成X²1或Xl × X2的数据序列。新数据序列产生的方法是:选择F4→(2)Generate by equation,或输入命令GENR,屏幕显示:Equation?系统要求用户输入新的序列名和生成新序列的表达式,其形式是:

新序列名=表达式

新序列名是用户自定义的序列名,表达式是利用内存中已有的序列构成表达式。例如用户要生成X²1新序列并把新序列名命名为XPF,则在Equation?后键入:

XPF:Xl*Xl

命令被执行后,屏幕显示XPF computed,屏幕上方状态区会出现序列名XPF,表明已生成XPF新序列。GENR命令是TSP中非常有用的命令,利用它可以获得多种分析所要的数据序列。 6.数据序列的显示。

(1)数据序列内容的显示。显示内存中数据序列的方法是:选择F4→(9)showdata table,或输人命令SHOW,屏幕显示:series list?输入要显示的序列名。可同时输入多个序列名,各个序列名之间用空格隔开。用户也可以

通过命令LABEL显示数据序列的注释内容,注释内容包括last updated和annual两部分。

(2)数据序列图形显示。TSP统计预测软件包可以显示数据序列的折线图、散点图、条形图、片形图和频数图等。数据序列的显示功能是在F4功能菜单内的(8)Gra—phies子菜单内实现的。Graphies子菜单的内容见附表2。 附表2 Graphies菜单内容

选择其中的内容或输入对应的命令,系统便显示下级子菜单。如要显示散点图,可在附表2中选择(2)scatter diagram,或输入命令SCAT,屏幕显示:series list?用户要输入两个序列名,前一个序列名为纵坐标,后一个序列名为横坐标,两个序列名之间用空格分开,回车后屏幕显示:

用户选择其中一项便可显示相应的图形。在图形下方出现提示信息(T) →Type,(P) →Print,(S) →Save,(O) →Options,(F) →plotter & HPGL,(R) →Preview,(X) →Exit,供用户选择。

(三)TSP软件包预测功能

1.移动平均法。根据移动平均法的原理进行移动平均分析,需要对数据序列中的数据进行移动。利用GENR命令,可以获得某一个序列的移动序列,方法是选择F4→(2)generate by equation,在equation?后输人:

新文件名=序列名(n)

其中序列名是要移动的序列;n表示移动的期数,当n取正数时,表明序列中的数据向上移动n期,n取负数时,表明数据序列向下移动n期,新文件名即为移动后的数据序列名称。例如,要将数据序列SR向下移动一期,可输入

SRl

=SR(-1),SRl便是SR向下移动一期的序列。若计算数据序列n=3时的移动平均值,可以用如下方法获得:

(1)键入GENR命令,屏幕显示:equation?

(2)在equation?后输入方程:YC=(SR+SR(-1)+SR(-2))/3

YC是移动平均序列,SR(-1),SR(-2)分别表示将SR中的数据向下移动一期和二期,回车后屏幕显示YC computed,表示移动平均序列已计算。

2.指数平滑分析。TSP软件包具有指数平滑的功能,具体方法是:选择F5→(8)Exponential smoothing→(s)single exponential,或输入命令SMOOTH,屏幕显示:series to smooth?输入要进行平滑分析的数据序列名(如SR),屏幕显示name for forecast series?输入预测序列名(如PH),屏幕显示:Estimate all smoothing pa-rameters?(y/n),选择N,屏幕显示:enter parameter value between 1 and 0,or E for estimate(ALPHA?),提示用户输入平滑系数。的值,用户输入a值,屏幕显示计算结果见附表3。 附表3 指数平滑分析结果

此表分别显示分析的时间、数据时间范围、数据个数、平滑方法、原始数据序列名、平滑值数据序列名、平滑系数、剩余平方和、误差平方和末期平均值。平滑分析完成之后,系统将平滑序列PH保存在内存中供使用者调用。

TSP系统在计算平滑值时,是采用将序列前三期数据的平均值作为预测值的期初水平。

3.相关分析。选择F5→(1)Descriptive & test statistics→

(1)Descriptive,或输入命令COVA,屏幕显示:series list?用户输入要进行相关分析的数据序列,屏幕显示计算的结果。COVA命令具有两种功能,一是计算数据序列的均值、标准差、最大值、最小值,二是计算数据序列的协方

差和相关系数。

4.回归分析。TSP软件可以进行回归分析的方法有:普通最小二乘法、两阶段最小二乘法、非线性最小二乘法、加权最小二乘法、两阶段加权最小二乘法、非线性加权最小二乘法等。本文以普通最小二乘法和非线性最小二乘法为例说明如何进行回归分析。

(1)普通最小二乘法。选择F5→(2)single equation estimation→

(1)ordinary least squares &ARM,或输人命令LS,屏幕显示:Dependent variable?输入因变量序列名,屏幕显示:independent variable list,输入常数项c和自变量序列名。屏幕显示回归分析的结果。

执行LS命令后,系统生成三部分结果:回归系数及各种统计检验值,自变量的协方差矩阵,序列观察值、拟合值、回归残差值和残差图形。

①回归系数和统计检验值。这部分结果分成上、下两个部分,上部分是变量名、回归系数估计值、回归系数标准差、回归系数的T检验值;下部分是各种统计检验值,判定系数(R-squared)、调整判定系数(Adjusted R-squared)、D - W检验值(Durbin-watson stat)、F检验值(F-statistic)、回归标准差(S.E.of regression)、因变量平均值(Mean of dependent var)和因变量方差(S.D.of dependent var)。

②解释变量的协方差矩阵,在第一部分显示表下有提示信息Display the coefficient covariance matrix?(P.S.enter)是提示使用者是否显示协方差矩阵。选择P是打印协方差矩阵,且屏幕同时显示这一结果;选择S是显示协方差矩阵而不打印;Enter为不显示也不打印,只是在屏幕底部改变显示内容。 ③序列观察值、拟合值、残差值和残差图形。

当在协方差矩阵显示结果中选择了S或Enter后,屏幕上即会显示各时期的实际观察值、回归拟合值、残差值和残差图形(actual,Fitted,Residual,Residual PLOT)屏幕底部显示提示信息:Repeat the output?按回车键则退出LS命令显示;选择S则回到第一部分。 .

(2)非线性最小二乘法。TSP软件包可以对非线性模型不进行线性化的情况下进行回归分析。例如对非线性模型y=a+bece,利用最小二乘法很难计算出a、b、c的估计值。若利用非线性回归就可以比较容易地进行分析,具体方法是: 选择F5→(2)single Equation Estimation→(4)nonlinear least squares,或输入命令NLS,屏幕显示:equations?输入回归方程:

y=c(1)+c(2)*exp(c(3)*x)

回车之后屏幕显示回归分析的结果,其显示形式与线性回归分析的形式一样。 在非线性回归分析中未知参数是用c(1),c(2),c(3),„,c(n)的形式表

示。等式左端必须是已知的一个数据序列,右端为已知数据序列带未知参数的表达式。作为非线性回归分析特例的线性回归分析也可以利用NLS命令来进行分析。如线性模型,可以用NLS命令,然后输入等式

y=c(1)+c(2)* x

来分析,其结果与线性回归分析相同。

5.回归分析预测。执行了回归分析的命令后,系统便将生成的回归方程保存在内存中,成为当前方程,同时将回归系数分别保存在变量c(1),c(2),„,c(n)中,将残差保存在序列RESID中。我们可以利用回归方程计算出理论预测值序列,也可以利用方程进行趋势外推。

(1)计算理论预测值序列。选择F5→(3)Equations and forecast→

(6)forecast→dynamic simulation或输入命令FORCST,屏幕显示:Name for forecast series?输入回归预测值序列名(如HGYC),序列HGYC便是理论预测值序列,同时屏幕上方状态区出现新序列名HGYC。

(2)趋势外推。利用回归方程进行趋势外推的步骤如下:

①更改工作文件的时间范围。如果当前工作文件的时间范围没有达到预测期的范围,需要将工作文件的时间范围扩展到预测期,扩展工作文件时间范围的方法是:选择F5→(1)work files →(4)expand the sample range,或输入命令EXPAND,屏幕显示:starting date,输入起始时间,屏幕显示Ending date?输入终止时间,屏幕的状态显示区中的range由原来的范围改变为现在确定的时间范围。

②更改数据序列的时间范围。更改数据序列时间范围的方法是:选择F4→

(1)set sample range,或输人命令SMPL,屏幕显示:sample rang or IFexpression?输入起始时间,屏幕显示:Ending of range?输入终止时间,屏幕上方的current SMPL由原来的时间范围改变为用户确定的时间范围。

③输入自变量预测期数据。用DATA命令输人扩展期内自变量的数据。注意,输入新数据的自变量序列名与原先的自变量序列名必须相同,因为输入的数据是自变量预测期(扩展期)内的数据,若更改自变量序列名,系统在预测时还会用原来没有扩展期数据的原数据序列。

④计算预测值的数据序列。当自变量数据增加之后,就可以利用FORCST命令进行预测。

二、SAS

美国SAS软件研究所创立于1976年,是全球第九大独立软件开发商,同时也是全球最大的私人独立软件商,目前拥有员工近5,500人,在六十多个国家和地区设有分公司和分支机构,1998财政年度营业额接近8.7亿美元。

SAS系统经过二十多年的不断发展和完善,已由最初的统计分析系统发展成为能够为用户提供企业级管理信息和决策支持系统完整解决方案的集成应用系统和策略应用资讯系统(Strategy Application System),具有完备的数据访问、管理、分析和呈现功能。利用SAS系统的数据仓库管理工具(SAS/Warehouse Admin—istrator)、多维数据库技术(SAS/MDDB Server)和广泛的数据库接口,结合完备的数据处理能力、对分布式计算环境和Intranet技术的支持,使得用户可以方便地建立和维护数据仓库(Data Ware—house),进而通过简便快捷的开发工具和丰富的数据分析工具实现包括管理信息系统(MIS)、行政信息系统(EIS)、决策支持系统(DSS)、联机分析处理(OLAP)、数据发掘(Data Mining)等范围广泛的应用。美国《DATAMATION》杂志1996、1997已连续两年将SAS系统评为数据仓库工具的年度最佳产品;法国《Yphise》杂志1997、1998已连续两年将SAS/Enterprise Miner评为数据挖掘的最佳工具。环顾全球,近120个国家和地区的30000多个机构采用了SAS系统,直接用户超过三百万人,SAS系统被广泛应用于政府、科研、教育、生产和金融等不同领域,发挥着日益重要的作用。

目前最高的版本是SAS6.12版本。

在Win95或NT环境中,从开始菜单的程序文件夹中找到SAS系统文件夹,从中启动SAS系统。在Windows 3.xx环境中双击SAS系统程序组中的SAS图标以启动SAS系统。

(一)SAS运行界面

启动SAS后,出现如图1的SAS运行界面。它象其它Win—dows应用程序一样,在一个主窗口内,包含若干个子窗口,并有菜单条、工具栏、状态栏等。 SAS有三个最重要的子窗口:程序窗口(PROGRAM EDI—TOR)、运行记录窗口(LOG)、输出窗口(OUTPUT)。

程序窗口用来编辑SAS程序。程序可以直接在窗口中键入,也可以从剪贴板上粘贴文本,还可以打开用其它编辑软件(如写字板程序)编辑的文本文件。要运行编辑好的程序,只要用鼠标单击工具栏的提交图标 ,或用Locals菜单的Submit命令。要调回刚运行过的程序,在程序窗口用“Locals │Recall text”菜单或按F4功能键。

运行记录窗口记录程序的运行情况,运行是成功还是出错,运行所用时间,如果出错,错在什么地方。运行记录窗口中以红色显示的是错误信息。

输出窗口显示SAS程序的文本型输出(图形输出单独有一个GRAPHICS窗口)。输出分页显示。

要激活某一窗口,可以用主菜单中的Window菜单选择要显示的窗口。用功

能键F5可以切换到程序窗口,F6可以到运行记录窗口,F7可以到输出窗口。 SAS主窗口标题栏下是主菜单。SAS菜单是动态的,即光标在不同窗口其菜单也不同。其中,File(文件)菜单主要是有关SAS文件调入、保存及打印的功能。Edit(编辑)菜单用于窗口的编辑(如清空、复制、剪切、粘贴、查找、替换)。Locals(局部)菜单与当前正在进行的操作有关,如果你正在程序窗口中编辑程序,则Locals菜单有提交运行、调回修改等项,如果在运行记录窗口或输出窗口则Locals菜单项根本不出现。Globals菜单内容比较复杂,它可以打开被关闭的程序窗口、运行记录窗口、输出窗口、图形窗口,可以进入SAS提供的各个独立模块。主菜单下是一个命令条和工具栏菜单,命令条中可以键入SAS的显示管理命令,工具栏图标提供了常见任务的快捷方式,比如保存、剪切、复制、粘贴等。工具栏图

标的解释如下:

Submit→ 提交编辑窗口中的程序

New →清空编辑窗口

Open→打开文件到编辑窗口。用户指定一个文件调入到编辑窗口内。这个文件从此与编辑窗口相关联,以后的存盘操作将自动存入这个文件。

save→ 存盘,保存编辑窗口内容,注意如果此窗口已经与一个文件相联系的话此功能将覆盖文件的原有内容而不提示。

Print→ 打印当前窗口内容

Print preview → 打印预览。

Cut→ 剪切选定文本。

Copy→复制选定文本。

Paste→ 粘贴。注意这些操作是对Windows剪贴板进行的,可以用来与其它Windows应用程序交换文本、数据等。剪切或复制到剪贴板的内容可以被其它应用程序粘贴,其它应用程序放到剪贴板的内容也可以粘贴到SAS的编辑窗口中。 Undo→ 撤销刚才的编辑操作。

DOS prompt→ 临时进入DOS。

Browse → 打开WWW浏览器并进入SAS公司的主页www.sas.com。

Directories→进入Directory(目录)窗口,可以浏览各SAS目录的内容,可以浏览目录中的数据集、SAS目录的内容。

SAS/ASSIST→启动SAS的菜单驱动界面SAS/ASSIST。

Help→ 启动Windows的帮助系统进入SAS的帮助。

(二)SAS基本概念

1.SAS程序

SAS强大的数据管理功能、分析功能等都可以通过编程来实现。SAS程序(Program)的基本单位是语句,每个语句一般由一个关键字(如DATA,PROC,INPUT,CARDS,BY)开头,用分号结束。SAS程序中的空格、空行一般可以任意放置。SAS程序由两种“步”构成,一种叫数据步(data step),一种叫过程步(proc step),分别以DATA语句和PROC语句开始。数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。数据步和过程步由若干个语句组成,一般以RUN语句结束。

SAS数据步的一般形式为:

DATA 数据集名;

语句1/选项;

语句2/选项;

„„

RUN;

SAS过程步的一般形式为,

PROC 过程名 DATA = 输入数据集 选项;

过程语句1/选项;

过程语句2/选项;

„„

RUN;

在SAS程序中可以加入注释,注释使用/*和*/在两端界定,这种注释可以出现在任何允许加入空格的位置,可以占多行。

2.SAS数据集

SAS数据集(SASData sets)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同类型的值,比如整数值、浮点值、时间值、字符串、货币值等等,最常用的数据类型是数值型和字符型。数据集的每一行叫做一个观测(Observation),每列叫做一个变量(Variable)。

在SAS中,数据集名、变量名等由英文字母、数字、下划线组成,第一个字符必须是字母或下划线,一个名字最多用8个字符,大写字母和小写字母不区分。 数据集可以用数据步生成,对于小量的数据,用CARDS语句和空语句把数据夹在中间放在数据步程序中就可以用INPUT语句输入数据:

data数据集名;

input变量名1(¥)(n1一n2)变量名2(¥)(n3一n4)

变量名3(¥)(n5—n6)„;

cards;

数据行;

run;

括号中是可选项。一般一个观测中所有变量的值放在一行,称为一个数据行,数据行之间用回车隔开。当某一变量是字符型变量时,input语句中与该变量对应的变量名后面要有一个“$”符号,以空格与前后隔开,数值型变量则不需要;变量名后面加(n1—n2)等选项是指定该变量在数据行中所占据的列起始位置与结束位置,要求数据行必须要对齐。如果没有指定变量的位置,数据行中各变量之间用空格隔开。

如果数据量很大,直接把数据放在程序中不利于程序和数据的维护。这时,一种办法是把原始数据放在一个普通的文本格式的文件中,然后用INFILE语句指定输入文件名:

data数据集名;

infie’带路径的文本文件名’;

input变量名1(¥)(nl—n2)变量名2(¥)(n3—n4)

变量名3(¥)(n5—n6)„;

run;

SAS还可以读入其它格式的文件,比如FoxPro、Excel等微机格式数据文件。,这样的读入不用SAS语言完成,而是使用SAS系统File菜单中的Import命令完成。

3.SAS数据库

SAS数据库(Library)可以存放多个SAS数据集。有三个预定义的SAS数据库:WORK、SASUSER、SASHELP。其中,WORK数据库叫做临时库,存放在其中的SAS数据集叫临时数据集,这些临时数据集在退出SAS系统时会被自动删除。SASUS-ER库中的数据集是永久数据集,退出SAS时文件不会被删除。SASHELP库保存与SAS帮助系统、例子有关的数据集,是永久的。

操作时,我们把作为中间结果使用的数据集或练习用的数据集作为临时数据集保存,而需要以后再用的数据集应该保存为永久数据集。临时数据集和永久数据集的区别是:临时数据集可以用单水平名,即只有数据集名,比如DATAl;而永久数据集名由两部分组成,前一部分是它的库名,后一部分才是数据集名,两部分中间用小数点连接,比如SASUSER.DATAl表示。DATAl和SASUSER.DATAl是两个不同的数据集。

(三)SAS/INSIGHT简介

SAS的使用方法一般是输入一个程序,运行,修改,最后在输出窗口得到结

果。随着图形界面、用户友好等程序思想的发展,SAS也逐渐提供了一些不需要学习SAS编程就能进行数据管理、分析、报表、绘图功能,其中做得比较出色的一个是SAS/IN—SIGHT模块。SAS/INSIGHT提供了数据交互输入、数据探索、研究分布、相关分析、各种图形等功能。这里我们简单介绍SAS/IN—SIGHT的简单使用。

要启动SAS/INSIGHT,选Globals ∣Analyze ∣ Interactivedata analysis菜单,首先出现选择数据集的窗口,这是SAS/IN—SIGHT必须先选择一个要分析、观察的数据集。如果要生成新数据集,按New按钮,如果要打开已有数据集,按Open按钮。

数据窗口标题行显示了打开的数据集的名字,标题行下左上角有一个小的向右三角,这是数据窗口的菜单三角下方的数字是观测行数,右方的数字是变量个数。窗口内每行最左边的方块是观测的绘图标记,用于在图形中标记标量;然后是观测序号;再往右是各变量的值。数据窗口中的各变量用作列标题,在每一个变量名的上面有两个标签,右边一个代表变量的量测水平,分为区间变量(Int)和名义变量(Nom)。区间变量是取连续值的变量,只能为数值;名义变量是取离散值的变量,一般为字符型,也可以取数值。变量名上面左边的标签代表变量在分析中的缺省用途。

数据窗口可以用来建立新数据集。在SAS/INSIGHT内用“File ∣ New”菜单或在启动INSIGHT的窗口按“New”按钮。这时出现一个空的数据窗口,可以直接输入数据,各列自动取变量名为A、B、C、„,而且量测水平自动定义字符型变量为名义变量(Nom)、数值型为区间变量(Int)。为了修改变量名和变量的标签,从数据窗口的菜单选Define Variables,出现定义变量窗口,在这里可以修改变量名,给变量加标签(Label),可以选择变量的量测水平,可以规定变量的用途。变量的标签是对变量的一个可以长达40个字符的描述,可以用于以后的输出,可以用汉字。为了保存输入的数据集,选“File ∣Save ∣ Data”菜单,选择数据库,输入一个数据集名,按OK钮就可以保存数据集。

1.一维数据探索

SAS/INSIGHT提供了十分方便的数据探索功能。对一维数据,可以作直方图、盒形图、马赛克图,对二维数据,可以作散点图、曲线图、散点图矩阵,对三维数据可以作旋转图(三维散点图)。在图上可以选定一些观测,这些选择结果会同时反映在数据窗口和其它图中。

用“Analyze ∣Histogram/Bar Charts(Y)”菜单可以打开一个图形窗口生成某变量的分布直方图。直方图的每一个条形代表了绘图变量在一个区间的取值情况,条形高度为组频数,即取值在这一区间的观测个数。单击一条形选中在此

范围的观测,数据窗口的相应观测也被选定了。如果双击某一条形,就可以在选定相应观测的同时弹出一个检查观测窗口,窗口中显示各被选中的观测序号,以及其中一个观测的各变量值。这样可以很方便地检查图中各部

分所对应的观测。为取消选定,只要在图中空白处单击即可。

作出的图形有一个方框包围。如果想改变图形大小,可以单击方框使其变粗,然后拖动四个角中的一个,就可以把图形放大或缩小。甚至还可以把一个角向其对角方向拖动一直拖过对角,这样可以改变图形的横纵轴方向。拖动边框可以把图形移动到窗口内其它位置。

图形中提供了一个设置菜单,可以单击图形边框角上的向右箭头或在图形内右键单击来打开。菜单内容包括Ticks,可以设置坐标轴的具体画法;Axes用来指定画不画坐标轴;Observations用来指定是否画观测;Values指定是否标出各条形高度值。

盒形图是另一种表现数值型变量分布的图形。用“Analyse ∣BoxPlot/MosaicPlot”可以作出盒形图。从图形菜单中选Values可以标出图中重要数据值。盒形的中间有一条粗线,这是分析变量的中位数的位置,盒子上边线是分布的四分之三分位数,下边线是分布的四分之一分位数,盒子上下边线包含了分布的中间50%的观测。盒子的长度叫做分布的四分位间距,其作用类似于标准差,可以反映数据分布的分散程度。从盒子边线向外画了两条线叫做触须线,最长可以延伸到四分位间距的1.5倍,但是如果已经到了数据的最小值或最大值处就不再延伸。如果触须线没有达到数据的极端值,则这些数据点用触须线以外的点来画出,一般认为这样的点是异常点。从盒形图可以看出数据的偏斜情况,比如如果看到盒子的下半部比上半部长,而且下触须线比上触须线长,说明变量的分布略左偏。

用盒形图菜单中的“Means”选项可以在盒形图上加画一个菱形,菱形的中间代表分布的平均值,菱形端点到中间距离为两倍标准差。如果是变量服从正态分布,菱形上下端点之间应该包含大约95%的观测。平均值和中位数的比较也能反映变量的偏斜情况,平均值低于中位数可能左偏。

单击或双击盒形图的某一部分(盒子上半部或下半部、触须线、极端值)可以选定观测。

Analyze菜单的“Box Plot/Mosaic Plot”命令对连续型变量作盒形图,对离散型变量将作马赛克图。马赛克图一般不对单个变量作,而是对两个离散变量来作。

2.二维数据探索

SAS/INSIGHT可以作曲线图、散点图、散点图矩阵,可以在散点图中刷亮

观测。

曲线图有一个取值由小到大的X变量,有一个或几个Y变量,以X变量为横坐标对Y变量画曲线,可以同时画出多条曲线。用“Analyse ∣Line Plot”,弹出变量对话框,选定X变量(横坐标)、Y变量(纵坐标),可以画出曲线图。单击曲线上某一个点可以显示其观测序号,双击可以检查观测。可以在曲线图窗口中选主菜单的“Edit ∣Window ∣ Renew”,可以再弹出变量窗口,改变标签变量。用图形菜单(右键或单击向右三角)中的Observations可以画出各个数据点的符号。

散点图也有一个X变量和一个Y变量,但不要求X变量有从小到大的次序,画图不用连线而是用散点画出每一对X、Y坐标。用“Analyze ∣ScatterPlot”菜单,弹出变量对话框,在其中选X、Y变量并指定Label变量。单击“OK”即可作出散点图。

单击一个点可以显示其观测序号,双击可以检查观测。

为了在散点图中选定多个点,SAS/INSIGHT还提供了一种称为“刷亮(Brushing)”的操作。在图中拖动鼠标光标可以拖出一个小长方形,在这个长方形中的点都被选中,称它为刷子。选中的点在数据窗口也被选中,可以在数据窗口翻页查看,或用数据窗口的Find Next菜单命令查看,或在数据窗口用Move to First菜单命令把选中的点移到最前查看。双击长方形(刷子)可以弹出检查观测窗口,在那里可以逐个查看选中的观测内容。

拖动刷子的角可以改变其大小。拖动刷子内部可以移动它的刷亮位置,使进入刷子的点被选中,而离开了刷子的点被取消选中。可以同时用附加选中(Ctrl单击)的办法加选不在刷子内的点,这些点还可以显示标签。在拖动刷子时如果同时按住Shift或Ctrl键则为附加选定,即进入刷子的点被选中而离开刷子的点仍保持被选中。可以按住Shift或Ctrl键拖出第二个刷子,这时第一个刷子不再显示但它刷亮的点仍保持刷亮,移动第二个刷子时如果按住Shift或Ctrl键仍可保持已有选定。为了取消所有选定,只要点击图内空白处。

散点图矩阵画出多个变量两两间的散点图以考察多变量关系。用“Analyse Multivariate(Y’s)”,在变量对话框,选定变量,并选定“Output”按钮,在弹出的对话框中,选中“Scatter Plot Ma—trix”,单击“0K”。

散点图矩阵除了可以同时看到多个散点图的优点外主要是在一个散点图中被选中的点在其它散点图和数据窗口中也同时被选中。这样,我们可以在一个图中选一个极端点,看它在其它图中是否也处于极端位置。在一个散点图中刷亮的点在其它散点图中也同时被刷亮,可以移动刷子,同时其它散点图中被选中的点也在变化。

SAS/INSIGHT提供了自动移动刷子的功能。在拖动刷子时松开鼠标按钮,类似于“抛出”刷子,刷子就可以按抛出的方向继续移动并反弹。不过现在还较难控制自动移动的速度,有时移动过快。

3.三维数据探索

SAS/INSIGHT对三维数据可以作称为旋转图的三维散点图。启动菜单“Analyze ∣ Rotating Plot”,可以生成一个三维散点图。

这种三维散点图之所以称为旋转图,是因为坐标系可以在三维空间绕原点任意旋转。图形的左侧有一个小工具栏,其中有向上、下、左、右、逆时针、顺时针旋转的图标,再往下有一个滚动条,用它来规定自动旋转的速度。左下角是图形的菜单(向右的三角形)。

为了旋转坐标系,单击左侧的旋转方向图标。按住旋转图标可以连续旋转。按住Shift或Ctrl再旋转可以实现自动旋转。当鼠标光标移到图形的四个角时光标形状变成了手的形状,单击可以旋转,拖动可以连续旋转,拖动时“抛出”可以自动旋转。自动旋转中可以随时拖动图形以改变旋转方向。

4.图形的调整

SAS/INSIGHT提供了很强的调整绘制的图形的功能。比如,调整坐标轴的画法,点的大小、符号、颜色,隐藏某些观测,等等。

给不同观测使用不同的符号和颜色画点有助于迅速区分不同类观测的特点。用“Edit ∣Windows ∣ Tools”菜单可以打开一个工具窗口,如图2。这个窗口可以改变观测符号的颜色、符号,连线的线性、线宽,可以放大图形局部。在上述的各种图中或在数据集中选定观测,按一下工具窗口中的颜色和图形,就给这些观测规定了绘图的颜色和符号。为了改变绘点符号的大小,调用图形菜单(图形边角上的向右三角符号)中的Marker Sizes菜单可以选择一个合适的符号大小。利用一个分类变量来决定不同的绘点符号除了对每一类观测分别选定,然后指定绘点符号的办法,还可以选定这一分类变量,然后单击图2 工具窗口工具栏中绘点符号下面的多种符号的长棒形图标,可以自动为每一类分配一个绘点符号。

不同类观测用不同的颜色和符号来绘点是一种强有力的数据探索手段,恰

当使用可以直观地发现不同类型观测的区别。

5.分布研究

SAS/INSIGHT提供了很强的一维分布研究功能。对连续型变量,除了可以

画直方图、盒形图外,还可以作各种统计表,比如矩、分位数表,可以在直方图上画拟和密度曲线,可以检验分布是否来自正态、对数正态、指数,威布尔分布,等等。对离散型变量,可以画马赛克图、条形图、频数表。

图2 工具窗口

启动“Analyze ∣Distribution(Y)”菜单,出现选择变量对话框,选定一个变量,按OK可以打开一个新窗口,显示其分布的直方图、条形图、矩统计量表、分位数表。

在打开了某变量分布的窗口之后主菜单中的Tables、Graphs、Curves菜单被开放。在Tables菜单中可以选加一些统计表,比如Frequency Table是频数表,为每一观测值的频数、累计频数、百分比,C.I.for Mean可以计算均值的各种置信度的置信区间,Location Tests用于检验均值为某常数值(一般是0)的假设,可以用t检验、符号检验、符号秩检验等。

在Graphs菜单中已选了直方图、盒形图,还可以作QQ图,即分位数一分位数图。如果变量服从正态分布,QQ图的散点应大致在一条直线附近变动。QQ图的各种不同形状能够反映出变量分布的偏斜情况和重、轻尾情况。在QQ图中也可以选观测、刷亮等。画出QQ图后选主菜单中的“Curves ∣QQ Ref Line”可以为图中散点画一条拟和直线。

除了可以作正态分布QQ图外,还可以作对数正态,指数分布、威布尔分布的QQ图。对数正态要指定参数Sigma,威布尔分布要指定形状参数C。

SAS/NSIGHT为研究一维变量分布除画直方图外还提供了两类分布密度估计:参数估计和非参数估计。参数估计可以拟和正态、对数正态、指数、威布尔分布密度。非参数估计使用核估计。

为了作变量密度的核估计图,选“Curves ∣Kernel Density”,弹出一个对话框,可以选三种核函数:正态核、三角核、二次函数核,可以自动拟和最优的密度估计(方法为AMISE)或者自己指定平滑参数C。

在“Curves”菜单中还提供了对样本经验分布函数的估计。选“Curves ∣ Empirical CDF”即绘制样本经验分布函数。选“Curves∣ CDF Confidence Band”并选一个置信区间可以在经验分布函数两边画分布函数的置信区间。

用经验分布函数估计分布函数相当于用直方图估计分布密度。分布函数也可以用参数分布函数(如正态分布)来估计。选“Curves ∣Parametric CDF”并选分布类型可以画出估计的分布函数。

SAS/INSIGHT还可以进行分布检验,可以检验数据是否来自某一类分布(参数未知),或检验数据是否来自某一特定分布(参数已知)。选“Analyze ∣ Test for Distribution”,并选择是检验正态、对数正态、指数、威布尔分布中哪一个。

如果要检验数据是否来自某一特定分布,选“Curves ∣ Test

for a Specific Distribution”,并指定分布类型、分布参数,可以计算检验的

Kolmogorov D统计量及相应户值。

6.回归分析

用“Analyze ∣ Fit(Y X)”,并选定Y变量(因变量)、X变量(自变量),即可自动拟合出一条回归直线。在拟合了直线后,为拟合多项式曲线,只要选"Curves ∣ Polynomial”,然后输入阶次(De—gree(Polynomial)),就可以在散点图基础上再加入一条多项式曲线。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。

样条曲线是一种非参数回归的曲线拟合方法。为拟合样条曲线,只要选“Curves ∣Spline”,使用缺省的GCV准则(广义交叉核实)来选取光滑系数,就可以在散点图的基础上画出样条曲线。可以用光滑系数c的滑块来调整曲线的光滑程度/拟合优度。

核估计是另一种非参数回归的曲线拟合方法。为了画核估计曲线,只要选“Curves ∣ Kernel”,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的GCV法,就可以把核估计图附加到散点图上。

局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。只要选“Curves ∣ Loess”,SAS/INSIGHT就缺省使用一阶(线性)局部多项式拟合一条曲线。改变Loess的系数alpha可以改变曲线的光滑度。

SAS/INSIGHT还可以拟合广义线性模型,在选“Analyze ∣Fit(YX)”之后,选定因变量和自变量,然后按“Method”按钮,出现选择模型的对话框,选定因变量的分布类型(Response Dist.)、联系函数、估计尺度参数的方法之后,就可以拟合广义线性模型。

回归分析会输出一些数据诊断统计量,这是很重要的结果。

7.主成份分析

在SAS/INSIGHT中可进行主分量分析。选“Analyze ∣ Mul-tivariate(Y’s)”,弹出选择变量的对话框,选定Y变量,然后按Output按钮,选中主分量分析(Principal Component Analysis)复选框,OK后就得到了多变量分析结果(包括原始变量的简单统计量、相关阵)和主分量分析的结果(特征值、累计贡献率、特征向量)。另外还画了前两个主分量的散点图。

四、Market简介

Market(The Market Research Application(MRA))是SAS/STAT中关于市场研究分析的专门化模块。市场研究主要是分析和估计消费者与潜在消费者的偏好及选择。市场研究分析是应用数据分析的一个领域,它的目的是支持市场决策。Market提供了市场研究分析的统计方法,并以形象的图形显示这些分析的结果。SAS系统的用户可以通过鼠标方便地选择有关的统计方法进行市场研究,这些统

计方法是:

*结合分析(Conjoint Analysis)

*对应分析(Correspondence Analysis)

*离散选择分析(Discrete Choice Analysis)

*多维尺度分析(Multidimensional Scaling Analysis)

*多维偏好分析(Multidimensional Preference Analysis)

用户在SAS软件的命令行键入‘market’,然后在弹出的对话窗口中用鼠标选择要分析的数据集和相应的分析方法(上面5种方法之一),并按“OK”确定,这时将会出现变量选择对话框(如果是多维尺度分析将会先弹出数据集必须是相似矩阵或距离矩阵提示,按“Continue”,再按“OK”),选择变量并赋予这些变量在分析中所代表的角色,按“OK”便可出现直观的分析结果。在结果窗口中,用鼠标单击"Variables”按钮可以回到变量选择窗口、单击“Results”按钮可以在窗口中显示各种数据结果、单击“Plots”按钮可以观看各种直观图形。每种分析方法的操作和结果解释请参看第十三章中的例子。采用这些方法进行分析时要特别注意相应的数据集的正确格式。

【思考与训练】

1、什么是定性预测和定量预测?

2、什么是德尔菲法,如何组织?

3、领先指标法预测的步骤。

4、TSP和SAS应用预测软件包的预测程序和注意事项。

5、某市商业总公司欲对本公司下一年度的销售额进行预测,由三名有权威的管理人员组成预测小组,他们的预测结果如下表所示:(单位:万元)

根据以上资料,估算:

(1)各位管理人员的预测期望值;

(2)若给予管理人员A、B、C的权数分别为7、6、5,试估算该公司下一年度销售预测值(保留两位小数)

6、某公司99年上半年各月销售收入分别为:400万元,450万元,420万元,390万元,410万元,480万元。试用一次指数平滑法预测:

(1)取α=0.3时,预测99年7月份的销售额;

(2)取α=0.6时,预测99年7月份的销售额。

7

8、某地区农民10年人均年纯收入和该地区相应年份的销售额的资料如下:

要求:

(1)用最小平方法求出该一元回归方程中的参数,建立预测模型;

(2)假设模型的各项检验均通过,用该模型预测当年纯收入为1400 元的销售额(点预测)。

【案例应用】


相关文章

  • 铁路货运量预测方法组合研究
  • 铁路货运量预测方法组合研究 摘要:本文将灰色系统理论和线性回归方法结合起来,对预测方法进行了深入具体的阐述.最后以四川省铁路货运量为背景展开了案例分析. 关键词:灰色系统理论,线性回归,预测 铁路运输是一个复杂的动态系统,在进行货运量预测时 ...查看


  • 市场预测的基本原理
  • 第一章 市场预测的基本原理 [教学目的]通过本章的学习,可以了解市场预测的含义及基本原理:掌握市场预测的基本原则,重点把握市场预测的步骤. [重点与难点]1.市场预测的含义:2.市场预测的基本原理及基本原则:3.市场预测的步骤. [教学方法 ...查看


  • 武汉大学毕业论文的样本
  • 学号 密级 ______________ 武汉大学本科毕业论文 电力市场中市场力的评价与抑制 院(系)名 称:电气工程学院 专 业 名 称 :电气工程与自动化 学 生 姓 名 : 指 导 教 师 :应黎明教授 年 月 BACHELOR'S ...查看


  • 市场分析与项目投资战略2
  • 论述工程项目的市场分析和战略分析的关系 我国的项目管理发展时间较短,尤其是在20世纪90年代后,才孕育成型.当下,我国社会主义经济建设突飞猛进,为了适应市场经济体制的变革与贯彻落实科学发展观,我国应该建立健全适应我国国情的社会主义工程项目管 ...查看


  • 市场调查与预测论文
  • 市场调查与预测的关系 内容摘要:市场调查与预测是市场发展不能缺少的重要的信息来源之一,也是现代市场发展不能缺少的重要环节之一.市场调查是市场预测的基础,通过市场调查了解市场的发展规律,使市场更好的发展,从而推进整个社会的经济发展,使经济基础 ...查看


  • 预测的神经网络方法
  • 预测的神经网络方法 用于时间序列分析的大多数方法,如勃克斯-詹金斯(Box-Jenkins )方法均假设各变量之间是一种线性关系,这种局限性使其在实际应用过程中很难准确地进行分析和预测.在过去的十多年中,一些学者注意到这种局限性并提出了一些 ...查看


  • 传染病预测预警方法在我国的应用现状
  • 308 CHINA TROPICAL M EDICINE Vol.10No.3M arch 2010中国热带医学2010年第10卷第3期 [疾病监控] 传染病预测预警方法在我国的应用现状 Current status of applicat ...查看


  • 第二章 市场分析与战略分析(项目建设必要性评估)
  • 第2章 市场分析与战略分析(项目建设必要性评估) 教学学时: 3学时 教学内容 1.项目市场需求分析概论: 2.项目市场需求分析内容: 3.项目市场需求预测分析方法. 基本要求 了解:市场调查的内容.方法及步骤:市场预测的种类.熟悉:制约生 ...查看


  • [市场营销学]考试大纲
  • <市场营销学>大纲 一.课程性质 市场营销学是中等职业学校财经商贸类专业的一门必修专业基础课,是企业管理和经营人员面对复杂多变的市场环境,必须有的市场综合分析和解决经营管理问题的基本技能. 该课程为中等职业学校学生升学考试的专业 ...查看


  • 汽车营销基础与实务大纲
  • 汽车检测与维修专业<汽车营销基础与实务> 课程教学大纲 (2012年8月修订) 本大纲根据<汽车检测与维修专业培养方案>制定,总学时68. 一.课程性质及任务 <汽车营销基础与实务>为汽车类专业的专业基础 ...查看


热门内容