工资报酬的数学模型

A 题:垃圾分类处理与清运方案设计

垃圾分类化收集与处理是有利于减少垃圾的产生,有益于环境保护,同时也有利于资源回收与再利用的城市绿色工程。在发达国家普遍实现了垃圾分类化,随着国民经济发展与城市化进程加快,我国大城市的垃圾分类化已经提到日程上来。2010年5月国家发改委、住房和城乡建设部、环境保护部、农业部联合印发了《关于组织开展城市餐厨废弃物资源化利用和无害化处理试点工作的通知》,并且在北京、上海、重庆和深圳都取得一定成果,但是许多问题仍然是垃圾分类化进程中需要深入研究的。

在深圳,垃圾分为四类:橱余垃圾、可回收垃圾、有害垃圾和其他不可回收垃圾,这种分类顾名思义不难理解。其中对于居民垃圾,基本的分类处理流程如下:

在垃圾分类收集与处理中,不同类的垃圾有不同的处理方式,简述如下: 1)橱余垃圾可以使用脱水干燥处理装置,处理后的干物质运送饲料加工厂做原料。不同处理规模的设备成本和运行成本(分大型和小型)见附录1说明。

2) 可回收垃圾将收集后分类再利用。 3) 有害垃圾,运送到固废处理中心集中处理。 4)其他不可回收垃圾将运送到填埋场或焚烧场处理。

所有垃圾将从小区运送到附近的转运站,再运送到少数几个垃圾处理中心。显然,1)和2)两项中,经过处理,回收和利用,产生经济效益,而3)和4)只有消耗处理费用,不产生经济效益。

本项研究课题旨在为深圳市的垃圾分类化进程作出贡献。为此请你们运用数学建模方法对深圳市南山区的分类化垃圾的实现做一些研究,具体的研究目标是: 1) 假定现有垃圾转运站规模与位置不变条件下,给出大、小型设备(橱余垃圾)的分布设计,同时在目前的运输装备条件下给出清运路线的具体方案。以期达到最佳经济效益和环保效果。

2) 假设转运站允许重新设计,请为问题1)的目标重新设计。

仅仅为了查询方便,在题目附录2所指出的网页中,给出了深圳市南山区所有小区的相关资料,同时给出了现有垃圾处理的数据和转运站的位置。其他所需数据资料自行解决。 附录1

1)大型厨余垃圾处理设备(如南山餐厨垃圾综合利用项目,处理能力为200吨/日,投资额约为4500万元,运行成本为150元/吨。小型餐厨垃圾处理机,处理能力为200-300公斤/日,投资额约为28万元,运行成本为200元/吨。橱余垃圾处理后产物价格在1000-1500元/吨。 2) 四类垃圾的平均比例

橱余垃圾:可回收垃圾:有害垃圾:其他不可回收垃圾比例约为4:2:1:3。可回收垃圾划分为纸类、塑料、玻璃、金属四大类,大概比例分别是:55%、35%、6%、4%。纸类、塑料、玻璃、金属四类的废品回收价格是每公斤: 1元、2.5元、0.5元、2.5元。

3)南山区的垃圾清运设备情况(主要是车辆数目和载重)。 拖头(拖车):

只拖十吨的大型厢,只用于从转运站到垃圾中心,每次只拖一个大型“厢”, 平

均吨公里耗油25L —30L 柴油/百公里。 收集车辆:

只负责从小区的垃圾站到转运站运输。100辆2.5吨汽车,每车耗油20L —35L 70#汽油/百公里。

司机月薪平均3500元。

附录2. 部分有关资料请上网站www.adamsw.com ,在数学建模基础数据页之垃圾问题基础数据下载:1)垃圾转运站垃圾转运量等情况统计表(南山),2)南山区居民数据,3)中转站位置图。

B 题:水资源短缺风险综合评价

水资源,是指可供人类直接利用,能够不断更新的天然水体。主要包括陆地上的地表水和地下水。

风险,是指某一特定危险情况发生的可能性和后果的组合。

水资源短缺风险,泛指在特定的时空环境条件下,由于来水和用水两方面存在不确定性,使区域水资源系统发生供水短缺的可能性以及由此产生的损失。

近年来,我国、特别是北方地区水资源短缺问题日趋严重,水资源成为焦点话题。

以北京市为例,北京是世界上水资源严重缺乏的大都市之一,其人均水资源占有量不足300m 3,为全国人均的1/8,世界人均的1/30,属重度缺水地区,附表中所列的数据给出了1979年至2000年北京市水资源短缺的状况。北京市水资源短缺已经成为影响和制约首都社会和经济发展的主要因素。政府采取了一系列措施, 如南水北调工程建设, 建立污水处理厂, 产业结构调整等。但是,气候变化和经济社会不断发展,水资源短缺风险始终存在。如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。

《北京2009统计年鉴》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和你自己可获得的其他资料,讨论以下问题:

1 评价判定北京市水资源短缺风险的主要风险因子是什么?

影响水资源的因素很多, 例如:气候条件、水利工程设施、工业污染、农业用水、管理制度,人口规模等。

2建立一个数学模型对北京市水资源短缺风险进行综合评价, 作出风险等级划分并陈述理由。对主要风险因子, 如何进行调控,使得风险降低? 3 对北京市未来两年水资源的短缺风险进行预测,并提出应对措施。 4 以北京市水行政主管部门为报告对象,写一份建议报告。

附表 1979年至2000年北京市水资源短缺的状况

注:2000年以后的数据可以在《北京2009统计年鉴》上查到。

深圳也是我国严重缺水的城市。你们也可取代北京,对深圳水资源短缺风险进行相应的研究。

C 题:测井曲线自动分层问题

在地球物理勘探中需要利用测井资料了解地下地质情况,其中测井曲线分层是首先要完成的基础工作。测井曲线分层的目的是为了在今后的研究中,便于对具有不同特点的地层确定研究目标,以及确定将要重点研究的地层,统一不同井号的研究范围。

通常,在一个区域内,通过前期地质研究工作,结合各种测井数据,首先对最早开发的参考井进行详细研究。每一种测井数据,都反映了地质结构的特点和地层的变化,地质人员通过经验,综合各种测井数据反映的地层特点,将井从一定深度开始,对井进行井层划分和命名,如1号井从距井口深368米处开始,依次往下,定名为长31、长32、长33、长41、长42、长61、长62、长63、长71、长72、长73、长81、长82、长91、长92等地层。接着在分析随后开发的2号井时,也根据和1号井分层的特点和规律,依次定名为长31、长32、长33、长41、长42、长61、长62、长63、长71、长72、长73、长81、长82、长91、长92等地层。井的位置不同可能会导致这口井的每一个层位的深度范围也不同,甚至有可能会出现缺失中间某层的现象。如第6号井缺长31、长32层。通常这些工作都是通过人工来进行的,这就是所谓人工分层方法。该方法不仅费时费力,而且分层取值过程中受测井分析人员的经验知识和熟练程度影响较大,主观性较

强,也会因为不同的解释人员的个人标准有误差,而造成不同的人员有不同的分层结果。

自动分层的基本思想、实现手段是一个不断发展变化的过程。由人工分层到自动分层,除了计算机工具的引入,各种数据处理技术也被应用于自动分层。随着一个区域开发井的数量增加,我们希望利用已有分层井点数据与变化特点作为控制点,结合每口井丰富的测井曲线数据,如密度 (DEN)、声波 (AC)、中子 (CNL)、自然伽玛 (GR)、自然电位 (SP) 和电阻率 (RT) 等的变化特点,建立合理的数学模型,实现井位分层人工智能处理,也就是实现自动分层。相对于人工分层,自动分层可以避免人为分层的随意性,并可在很大程度上提高工作效率。进行具体的井位分层人工智能处理,这将极大地提高工作效率。另一方面,希望通过自动分层处理,与人工分层的结果进行比较分析,进一步提高分层精度。

下面请完成以下工作: 1.

以1号井为标准井,根据此井的各种测井曲线数据,建立数学模型,对第2号至7号井进行自动分层,并且通过分析,与人工分层结果进行比较分析。考虑是否需要利用你所建立的数学模型,对1号井的分层结果进行说明。 2.

通过前面人工分层与自动分层的比较结果,以及已给的各种测井曲线数据,确定合适的数学模型对第8号井至13号井进行自动分层,并分析你的结论。

数据见附件1和附件2

附件1 (1-13号井测井数据) :第二行是开始记录数据的井位深度,第三行是结束记录数据的井位深度。第四行为记录井位数据的间距。第五到第七行为66种不同的测井数据,接下即为记录的具体数据。其中,DEPTH 代表井位深度,其他的数据一部分为测井曲线,如DEN (密度) ,RILD (深感应电阻率) ,RILM (中感应电阻率) ,R4.0 (4M电阻率) ,SP (自然电位测井) ,GR (自然伽玛测井) ,AC (声波测井) ,RML (微侧向电阻率) ,CNL (中子密度测井) ,RT (电阻率测井) ,WA (视地层水电阻率), RMFA (视泥浆电阻率) 等,还有一部分代表地层的特性,如DEVi (井斜) ,AZIm (井斜方位) ,CAL (井径) ,PORW (含水孔隙度) ,PORT (总孔隙度) ,POR (孔隙度) ,PORR (有效孔隙度) ,PORF (冲洗带饱含泥浆孔隙度) ,PERM (绝

对渗透率) ,SW (总含水饱和度) ,SH (泥质含量) ,SXO (冲洗带含水饱和度) ,POW (含水孔隙度) ,CARB (煤的含量) ,FW (产水率) ,BULK (出砂指数) ,CALC (井径差值) ,CL (粘土体积) ,PORX (流体孔隙度) ,PORH (油气重量) 等等。

注:数据中-9999.000是无效数据,它可能是因为测量仪器对某种属性不敏感而导致的。

附件2 (井位数据) :第2、3列为井的坐标位置,后面各列标出了不同名称层位的底深 (表示该层位结束时的深度) ,即可确定每个地层的所在深度范围。

D 题:用出租车GPS 数据分析深圳道路交通情况

各大城市出租车越来越多的安装了GPS 终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS 实时数据。原始数据主要保存出租车上装配的GPS 终端所采集的数据,这些数据包括序号,车牌号码,GPS 时间,经度,纬度,车辆状态(空车、重车) ,车辆速度,车辆方向(8个方向) 等信息。附注网站提供了深圳市出租车GPS 数据,从这些数据你是否能够:

1. 根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。

2. 根据小区划分和出租车GPS 数据,给出载客出租车的OD 时空分布。如:某时刻从坐标(i , j ) 到(i ', j ') 、(i '', j '') 的出租车有多少辆。

3. 由此,在合理的假设条件下,能否对人们出行的OD 时空分布进行推断? 4. 根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。

附注:部分有关资料请上网站www.adamsw.com ,在数学建模基础数据页之交通问题基础数据下载:深圳出租车GPS 数据,数据文件较大,我们分解成若干个小文件提供。

E 题:家政服务人员合理的工资报酬

随着人们生活水平的提高、生活节奏的加快、工作压力的增大以及人口日趋老龄化,社会对家政服务的需求越来越大。当前人们雇请家政服务人员的渠道不一,有的通过妇联介绍、有的通过家政中介介绍、有的通过熟人介绍。与此同时,相同的服务内容得到的报酬也不一样,甚至高低相差较大。因此,亟待政府规范家政服务行业,制定统一的工资标准,减少家政服务人员与雇主的矛盾,促进社会和谐。

由于家政服务内容所涉及的因素多,每个家庭需要提供的服务不尽相同,因此统一制定工资标准就比较复杂。

为了研究问题方便,我们假定家政服务的内容主要包括打扫卫生、做饭、洗衣服、带小孩和护理病人等。

打扫卫生分为每周打扫1次—7次;做饭分为每天做1餐或2餐,每周做5天—7天;洗衣服分为每周洗1次—7次;带小孩和护理病人每周可能服务5天—7天。

需要解决下列问题:

1.定性分析影响工资报酬的因素以及工资报酬与这些因素之间的关系; 2.建立数学模型,定量刻划工资报酬与这些因素之间的内在关系; 3.利用问题2的结果,给出各种家政服务及其合理组合的工资标准; 4.就目前吉林省普通工人的平均工资水平,论证问题3中各种工资标准的合理性。

F 题:个人所得税改革方案的定量分析

“十一五”是我国经济社会发展的关键时期。党的十六届五中全会确立了“十一五”时期经济社会发展的指导思想、基本原则和目标任务,并对推进税制改革,加强税收征管,发挥税收作用提出了具体要求。税制改革的基本内容可以概括为四个部分:其中之一是个人所得税的改革。把现行的个人所得税、个人收入调节税和城乡个体工商所得税合并,建立统一的个人所得税。

2011年是“十二五”的开局之年, 4月25日全国人大常委会办公厅公布了《中华人民共和国个人所得税法修正案(草案)》,向社会广泛征求意见,公众参与热情极高。据了解,人们对草案较为关注的问题包括:对个税免征额调高至3000元是否合理、级次级距调整是否加重中等收入人群负担、个税调整对财政收入有多大影响等。请你们选择感兴趣的某些指标,建立数学模型,提出你认为合理的个人所得税改革方案,并利用互联网数据,定量地分析该方案的合理性,为该方案给出科学的理论依据。

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 许昌学院 参赛队员 (打印并签名) :1. 赵龙安

指导教师或指导教师组负责人 (打印并签名) :

日期: 年 月 日

赛区评阅编号(由赛区组委会评阅前进行编号):

编 号 专 用 页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

职工工资的数学模型

摘要:

本题是分析人们关注的职工工资的问题,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。为了科学合理的制定企业的工资制度,我们建立了数学模型进行分析。

针对问题,我们采用了多元线性回归的数学模型对其进行分析计算,假设影响的因素都是呈线性显著相关,利用多元回归分析进行求解计算,并用求解结果来分析检验是否所有因素都是其明显的影响因素。通过多元线性回归的最小二乘法和逐步回归的方法我们逐步剔除了那些对日平均工资影响不明显的因素,使得问题处理得到简化。

但是从模型的假设和符号的说明中分析,工龄可以近似的看作能够连续的变量,而学历和培训情况却是离散变量。改进后的模型考虑到了各个因素对工资的影响并非都具有线性关系,利用MATLAB 进行的曲线拟合,引入平方项进行模型的修正。

在模型的建立中,我们利用了强大的数学计算软件MATLAB 对模型进行求解,增强数据处理的权威性和可信度。其中在建立模型过程中用到了MATLAB 统计工具箱中的stepwise 命令和regress 命令,在模型修改过程中用到了MATLAB 中曲线拟合工具箱(Curve Fitting Tool )。

最后,得出了符合实际情况的数学模型,分析了题目所给的问题,并且可以较为广泛的应用在企业职工工资的评价体系中,具有很大的实际应用空间。

关键字:多元线性回归;最小二乘法;逐步回归;曲线拟合

一、问题的提出

职工工资可以说是人们最为关切、议论最多的部分,因此也常常是最受人们重视的部分。总的来讲,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。科学合理的职工工资制度,是激励职工的劳动积极性、主动性、创造性重要动力,是提高劳动效率的重要手段,正确运用工资的杠杆作用在调动职工的劳动积极性等方面会起到事半功倍的效果,进而更好的促进实现企业的安全、生产、经营目标,以实现更大的经济效益。

为了科学合理的制定企业的工资制度,需要调查、统计和分析企业现行的职工工资状况,为制定科学合理的工资制度提供参考依据。此外,同样需要考虑企业中的特殊情况。比如:“特殊职务族”,对于此类“特殊族”是否需要制定和执行一定的特殊优惠政策,如对管理干部、高级专家、女工等特殊人群,也是需要考虑在内的。

现随机抽取了某企业若干职工的相关数据,见附件Bdata.xls 。请建立适当的数学模型研究下列问题: (1)分析平均日工资与其他因素之间的关系,尤其需要说明与哪些因素关系密切;

(2)考察女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入; (3)继续改进你的模型,并给出模型误差分析。

二、模型假设与符号说明

1.模型建立 1)职工工资的决定因素只与工龄等本模型所涉及的七个因素有关,与其它因素没有关系;

2)样本数据是通过有效地统计方法获得的,即数据是有效的可信的;

3)样本数据在该企业具有广泛的代表性,样本的采集考虑各个层次的比重,可以作为全企业的参考依据;

4)各因素之间相互独立,不存在交互作用; 5)样本数据是确定的,不存在随机性;

6)各因素的观测值没有系统误差,随机系统误差的平均值为0; 7)样本中日平均工资服从正态分布;

2. 符号说明

y 日平均工资

⎧1 男性 x 1 = ⎨

0 女性 ⎩ x = 工龄(月)

⎧1 其他 ⎧1 已婚女性 = x ⎨ x 3 = ⎨ 5 ⎩0 两年内无一工作经历 ⎩0 未婚女性、男性

⎧1 技术岗位 ⎧1 本科

= x ⎨ ⎪ 6 2硕士 ⎩0 管理岗位 ⎪

= x 4 ⎨

⎧1 受过培训 ⎪3 博士、博士后= x ⎨

⎪ 7 ⎩0 其他⎩0 未受培训

2

三、问题的分析

对于问题(1),要求分析平均日工资与其他因素之间的关系,并且说明与哪

些因素关系密切。就职工工资而言,按照一般常识,工资自然随着工龄(月)的增长而增加,管理人员的工资一般高于非管理人员,教育程度越高相应的工资也越高,有一线工作经历和受过培训对工资的提高也会有帮助,因为一般企业都是针对业务骨干或者重点培养的对象才会有机受到培训。现在有90组样本数据,每组数据中包含了工龄、学历、性别等各个因素。想要分析判断日平均工资与哪些因素有关系,且考虑与哪些因素具有密切关系。首先考虑到样本数据较多,可以利用概率统计的知识来进行初步的统计分析。从数据原始表格分析可知,日平均工资的影响因素很多,但具体有哪些因素是真正影响或者说有明显影响日平均工资的因素需要进行更深层次的数据处理以及分析。影响工资的因素之多,为此我们建立一种多元线性回归的数学模型对问题进行分析计算。假设影响的因素都是呈线性显著相关,利用多元回归分析进行求解计算,并用求解结果来分析检验是否所有因素都是其明显的影响因素,利用统计学知识来判断日平均工资与哪些因素具有明显的关系,如线性回归系数对应的置信区间是否包含零点来判断。由于样本中影响日平均工资的因素较多,其中可能有些因素对其影响并不明显,我们需要逐步剔除那些对日平均工资影响不明显的因素,因此试图通过统计回归分析中的逐步回归来实现。以MATLAB 统计工具箱中的stepwise 命令或者regress 命令来求解判断。

对于问题(2),要求考察女工是否受到不公正待遇,以及她们的婚姻是否影

响其收入:

1)考察女工是否受到不公正待遇需要理解“不公正待遇”的含义,什么样的情况算是女工受到了不公正待遇,与什么相比较得出其受到不公正待遇以及受到不公正待遇的表现形式,如平均日工资不同,还是工作性质不同等等。“不公正待遇”在本模型中作如下解释:不公正待遇是指在其他因素相同或者相差不明显时由于性别的不同而使日平均工资有明显差异,即考虑在该企业内是否存在性别歧视。

2)对于女性职工,婚姻状况是否会影响其收入,要科学合理的考察是否有影响,需要将女性职工的样本数据单一地列出也就是在同时考虑女性的条件下考虑婚姻与否对日平均工资影响。有问题(1)可以了解到影响日平均工资的因素可能并不是样本数据中的所有数据,或许只有其中某些因素有密切关系。因此对于问题(2)在数据的获取中应当剔除那些对工资影响不明显的因素,只保留影响较为明显的因素,这样更为科学合理,模型的处理也相对简单,并且相对容易地进行计算验证。

对于问题(3)模型的改进环节中,应当考虑到起初对模型的假设中各个因素之间对日平均工资的影响相互独立,没有交互作用。做这样假设的初衷是为了对模型做简单化处理,因为起初对于一个样本数据,我们并不能很快就理清各数据之间的联系。为了方便处理,做简单的模型简化是符合数学模型的建立步骤的,从简单到复杂逐步加深,逐步修正模型最后达到建立一个科学合理的数学模型。在问题(1)中可以得到众多因素中可能只有某些因素与工资有明显关系,为了使模型更为科学合理对模型做如下的修正:考虑到实际情况中影响日平均工资的各个因素之间会有一定程度的交叉现象,可以依据原始模型中问题(1)的结果对模型做适当修正,对影响效果较为明显的因素引入交互相,做交互分析。期望能得到更合理的模型。

四、模型的建立与求解

1. 模型的建立:

问题(1):对于对日平均工资的影响给出了7个自变量,为了便于说明分别用x 1~x 7 表示,日平均工资用y 表示。

虽然给出了7个自变量,并不一定这7个自变量对y 都有显著的影响,为此需要考虑如何从这7个自变量中找出对y 有显著影响的自变量。为简单起见,先建立多元线性回归模型,模型如下:

y =β0+β1x 1+β2x 2+β3x 3+β4x 4+β5x 5+β6x 6+β7x 7+ε (1)

其中β0~β7为线性相关的回归系数,x 1~x 7为自变量,y 为日平均工资,ε为随机误差;将(1)式化为:

y =β0+βx +ε (2)

2

3

90

⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭

β0⎫β1⎪⎪β2⎪

⎪β3⎪β4⎪

⎪β5⎪β6⎪⎪β7⎪⎭

⎛y 1⎫

⎪y 2⎪ y 3⎪ ⎪⎛x

11Y= ⎪

X ⎪= ⎪ x ⎪⎝90 y ⎪⎝90⎭⎛β0⎫ ⎪βε1⎫ 1⎛⎪ β2 ⎪⎪

ε2⎪ ⎪ β3 ⎪ε3⎪β= ⎪⎪β4εε4⎪ = ⎪ β5 ⎪ε5⎪

⎪⎪βε6⎪ 6 ⎪ β ⎪⎪⎝7⎝⎭ε7⎭

⎛x 11

x 17⎫X =

⎪ x ⎪

⎝90

⎪x 97⎭

x 17 x 97

⎫⎪⎪⎪⎭

⎧1⎫

⎛ε1⎫⎪β⎪ ⎪⎪2⎪ε 2⎪⎪β3⎪ ε3⎪⎪⎪ β=⎨β4⎬ ⎪

⎪β⎪ε= ε4⎪

⎪5⎪ ε⎪⎪β6⎪

5⎪⎪⎪

⎩β7⎭ ε6⎪

⎪ε ⎝7⎭

β

模型回归系数β的最小二乘估计

β0, β1, β2, , β7

^^^^

所谓最小二乘估计就是寻求参数β0, β1, β2, , β7的估计值,离差平方和

Q (β0, β1, β2, , β7) =∑(y 1-β0-β1x i 1- -β7x i 7) 2(i =1,2, ,90)

i =1

^^^^

达到最小,即寻求回归系数的估计值β

0, β1, β2, , β7

n

(3)

满足

Q (β0, β1, β2, , β7) =∑(y 1-β0-β1x i 1- -β7x i 7) (4)

i =1

n

=min ∑(y 1-β0-β1x i 1- -β7x i 7) 2(i =1,2, ,90)

i =1

n

2

^^^^

按照(4)式求出回归系数的估计值就是回归系数的最小二乘估β

0, β1, β2, , β7

计 。

2. 模型的求解:

用MATLAB 统计工具箱求解线性回归方程,利用regress 命令求解, 得到结果如表(0):

在表(0)中,经过初步的统计分析得到了除x 6以外,其余自变量对y 均有影响,这是使用多元线性回归得到的结果。结果显示性别工龄等对y 均有影响,其中性别对y 有影响,这可能说明该企业有性别歧视,为了更好的理解该企业是否存在性别歧视,尝试使用不同的方法进行分析。

对于问题(1),使用MATLAB 统计工具箱进行求解,由于建立了多元线性回归模型,且影响y 的因素较多,既需要考虑各个自变量对其的影响也要考虑在众多自变量中哪些自变量对其的影响更大即对y 有显著影响。去除影响较小的保留影响较大的,才能使得模型科学合理。在问题(1)的分析中已经提及过,比较恰当的方式是通过逐步回归法求解。 根据式子(2),求解步骤如下:

确定一个包含x 1~x 7中的若干个自变量的初始集合,然后每次从集合外引入一个对因变量影响最大的,在对集合中的自变量进行检验,从变得不显著的自变量中移出一个影响最小的,依次进行,直到不能引入或移出为止。引入和移出都以给定的显著性水平为标准。

利用MATLAB 统计工具箱中的逐步回归命令stepwise ,该命令提供了人机交换画面,决策者可以在画面上自由的引入和移出自变量,进行统计分析。

调用MATLAB 进行求解:使用stepwise (x ,y), 其中x 即式子(2)中的x (自变量的矩阵),y 为因变量的矩阵(日平均工资)。依据常规经验,对因变量影响最大的是工龄和学历。不妨先使用工龄和学历这两个自变量进行统计分析,使用MATLAB 统计工具箱中的stepwise (x ,y)命令得出如下结果:

图(1)

对图(1)中内容解释如下:F=147.545 代表着F 分布的检验值,显然远大于临界值,符合要求。P 值更是远小于0.0001,R-square=0.7702305 代表决定系数,其值的大小代表着因变量y 的多少可以有模型来确定。虽然在该模型中只有77.23%来确定y 的值,但基于上述求解只考虑了x 2和x 4对y 的影响,即工龄和学历对日平均工资的影响,说明了工龄和学历对日平均工资的影响效果是很显著的,基本上可以得出工资和学历对日平均工资有密切关系。在图(1)中红色数字和直线表示移出的变量,绿色的数字和直线表示在模型中的变量。

由于上述模型只把常规上对因变量y 影响最大的考虑在内,如果完全就按照上述的方法来做决策,未免带有很大的主观性,如果以此为依据对职工工资做预算或者调整显得不够谨慎,一旦有些许的错误可能就会给企业和职工双方带来很大的危害。为了更好的考察各个自变量x 对y 的影响,对各个自变量分别进行回归分析,即依次将x 1~x 7引入模型中进行单一的统计分析,记录每一次得到的计算结果F 、P 、R-square 等数据,然后对数据进行处理分析,观察在单一变量的情况下,比较哪些自变量x 对因变量y 的影响相对大一些,保留较为合理的剔除明显不合理的,对介于模糊边缘的再利用x 和y 的相关系数矩阵取统计分析,尽可能的减少由于主观因素而得到不合理的结果,将主观因素的误差降到最小。在得到对因变量影响较为明显的自变量后,重新考虑这样影响较大的因素之间结合对模型的影响,记录数据进行分析。

1) 每个自变量对因变量的影响:

2) 综合因素对因变量的影响:

在表(1)中,考虑R-square 、F 、P 、RMSE 四个值对结果的影响,由于在图(1)中已经将图中内容做过解释,在此就不另作详解。其中,R-square 越接近1,模型做出的结果越趋于准确,F 越大于F 分布的检验值,P 值远小于0.0001,RMSE 越小模型越合理。

① 比较分析表(1)的数据可得出如下结论:

在仅仅考虑一个自变量的影响时,自变量x 2、x 4、x 7对因变量y 的影响比较明显,其中x2的影响更为明显,从R-square 的值和F 的值可以看出。而x 1、x 3、x 5、x 6对y 的影响中,

R-square 趋近于0, 说明这些因素对y 的影响较小。因此,可以考虑保留x 2、x 4、x 7,将其余变量剔除。

继续探索更好的更准确的影响因素,将x 2和x 4,x 2和x 7,x 4和x 7,x 2、x 4和x 7分别移入有效变量中统计分析得到如下结果:

② 比较分析表(2)的数据可知:

当引入x 2和x 4时对y 影响明显,各项统计值如:R-square ,F 分布的检验值,概率P 也都符合理论值。当然从x 2、x 4和x 7对y 的综合影响来看也符合,不足的是引入x 4或x 7后对R-square 值的提高、RMSE 的减小并没有起到很大的作用,相反使得F 检验值下降的范围较大,x 7使得F 检验值下降更为明显。因此,综合各方面的因素考虑得出问题(1)的结果:在工龄、性别、学历等七个因素中,工龄(x 2)、学历(x 4)、培训情况(x 7)对日平均工资(y )的影响较大,即上述三者与日平均工资的关系密切。

综上所述:在考虑多元线性回归的最小二乘法估计和逐步回归的分析,结合实际情况对于问题(1)作如下总结:

y =57.6633+1.24064x 1+0.1023x 2-0.412081x 3+10.1043x 4-1.23417x 5+0.254786x 6+2.83814x 7

^

对模型中的回归系数作如下解释:x 1的系数为1.24064,说明当男女条件相同时男职工的日平均工资比女性高大约1.24元;x 2的系数为0.1023,说明在其他条件不变情况下,工龄增加一个月,工资增长0.1023元;x 3系数为-0.41208,说明相同情况已婚女性比未婚女性日工资低0.41元;x 4的系数为负数,在这里需要强调一点,因为模型的符号说明中假设本科为1、硕士为2、博士和博士后为3,负数恰恰说明了工资中本科小于硕士小于博士和博士后,即学历越高其工资也相应越高;x 5的系数为-1.23417,说明该企业技术岗位的工资要比管理岗位的低一点;x 6的系数为0.254786,说明有过一线工作经历的要比没有一线工作经历的职工稿子稍高一点;x 7的系数为2.83814说明受过培训的要比没受过培训的工资高一点;其中在各个因素中x 2对y 的影响最大,说明工龄对职工工资的关系最密切;其次是x 4和x 7,说明学历和培训对工资的影响也是很明显的;影响最小的是性别,次之是工作性质。

对问题(2)考察女工是否受到不公正待遇,从问题(1)的求解来看。首先,性别对工资的影响最小,问题(1)中是将全部职工放在一起做的比较,既然是全部职工都包括的情况下得到性别对工资的影响最小。很显然在考虑男女职工的情况下得出性别的影响作用最小,那么可以得出这样的结论:女工没有受到不公正的待遇。对于婚姻状况是否影响女性工资收入,因为都是在考虑女性所以将所有女工的数据信息抽取出来做单独分析。只有在都是女工的情况下比较婚姻是否影响其工资收入,只有保证了变量的单一性,才能科学合理的做出判断。将女性数据重新整理汇总,见附表(2)。

由问题(1)得知工龄、学历和培训情况对工资影响较大,分析附表(2)的数据发现受到培训的人员较少,所以结合实际应考虑主要部分,为此培训情况在下述讨论中将不涉及。初步分析中将数据用excel 处理,由于女性本科以上学历较少所以不予统计在内。分别考虑女性本科学历同为技术岗位和女性本科学历工资随工龄的变化情况见图(3)和图(4):

图(3)

图(4)

从图(3)和图(4)的观察分析可以得到初步简单的结论:技术岗位中女性婚姻与否对工资影响不是非常明显,有很小的波动范围是允许的,计算方法本身也会有一定的误差,管理岗位中女性未婚职工同样很少,分析其原因管理岗位一般都需要有一定的工作经验,换而言之管理岗位的职工工龄相对较大,这样未婚女性就会很少,可以将这些数据作为异常点剔除。综合考虑得到女性婚姻与否基本上不影响其收入。

五、模型的改进

由原始模型的出了与日平均工资最为密切的是工龄、学历和培训情况。从模型的假设和符号的说明中分析,工龄可以近似的看做能够连续的变量,而学历和培训情况却是完全的离散变量,为了便于处理我们引用了经典的做法:将学历和培训做成0-1证书变量,这位上面的求解带来了很大的方便。因为上述三者对收入的影响相对来说最为明显,模型的改进就从这三个方面着手修改更正。考虑到实际情况中工龄较为好处理,首先分析了工龄和工资的关系,并利用excel 做出了工龄与日平均工资的关系图。以工龄为横轴,日平均工资为纵轴做出散点图,见图(5):

图(5)

从图(5)工龄和日平均工资的分析可以看出工龄和日平均工资的线性关系对其拟合的很不完善,预测图形(5)中日平均工资随工龄的变化时在刚开始工作时,随着工龄的增加日平均工资成非线性关系的增长,在一定时期内变化趋势可能符合指数增长或者幂指数增长。在excel 中得到了工资与工龄的函数关系大致为: y 4. 674x 0. 9093 (5)

通过对工龄和工资的初步处理分析得到了工龄和工资之间可能是指数型或幂指数型的函数关系,为了寻求一种更为合理误差更小的关于工龄和工资的关系,利用MATLAB 中的绘图命令做出了工龄和工资的散点图,见图(6):

图(6)

由图(6)得知工资在起始阶段可能与工龄呈线性关系,增长也较快但经过一段时间的工作,其工资随工龄的增长放缓,在相当的时期内工资增长不大或者基本不增长,但其工资基本上维持在较高的水平,这与企业在实际的情况也相吻合。说明经过一步的探索,工龄与工资的关系也越来越明朗,但比较图(5)和图(6)还是不能很客观准确得出工龄与工资的关系,换而言之我们还不能有效得用数学关系式来相对准确的进行定量的分析。在企业中我们迫切需要定量的衡量工资标准,而不是依靠经验。为此,使用MATLAB 中数据拟合的功能来进一步的探索。在MATLAB 中已经得到了工龄和工资的散点图图(6),对图(6)进行曲线拟合,使用曲线拟合工具箱(Curve Fitting Tool),得到如图(7)所示结果:

图(7)

拟合的曲线函数式为

y = p1*x3 + p2*x2 +p3*x + p4

其中,

Coefficients:

p 1 = 1.2118e-006 p 2 = -0.0011801 p 3 = 0.3912 p 4 = 26.555

Norm of residuals = 84.106

图(7)是利用MATLAB 进行的曲线拟合,曲线拟合工具箱在给出图形的时候一并将工龄和工资的函数关系也描述出来,利用专业的数据处理工具箱得到的结

果具有一定的可信度,因此引入平方项进行模型的修正,这里没有考虑学历和培

训情况需要做简单解释:从问题(1)求解的表(1)中可知虽然工龄、学历和培训情况对工资的影响有密切关系,相对其余的因素来说这三者的影响最大,从 表(1)中也可以分析出如果只比较上述三者对工资的影响显然工龄的影响远大于另外二者。

基于上述原因,并且考虑工龄不可能无限大,而曲线拟合中三次方的系数远小于0.01,因此舍去x 2的三次方只引入x 2即工龄的平方项进行模型的修正,对模型重新进行求解,但可以参照上述求解的主要过程。建立新的修正模型如下:

2

y =β0+β1x 1+β2x 2 + +β7x 7+ε (6)

⎧β1⎫

⎪β⎪⎪2⎪⎪β3⎪⎪⎪

y =β0+βx +ε β=⎨β4⎬

⎪β⎪⎪5⎪⎪β6⎪⎪⎪⎩β7⎭

⎧ε1⎫⎡x i 1⎪ε⎪⎢2⎪⎪⎢ ⎪⎪ε=⎨ ⎬⎢ x =

⎢⎪ ⎪

⎢ ⎪⎪

⎢x ⎪⎩εn ⎪⎭⎣n 1

x i 22

x ik

2

x n x nk 2

x i 7⎤

⎥(n=0,1,2,3,4„90)

⎥ ⎥ x n 7⎥⎦

利用MATLAB 统计工具箱进行求解,得到结果如图(8):

图(8)

修正后模型求解的结果在某些方面可能不如原有模型,如F 检验值有很大的波动下降很大,但F 得检验值仍然满足要求。改进后的模型考虑到了各个因素对工资的影响并非都具有线性关系,依据问题(1)和曲线拟合的结果对模型做了引入平方项的修正还是比较合理的。模型经过科学合理的优化使得计算的误差进一步缩小。当然对模型的处理改进可能会有很多种方法,我们也只是利用了一种处理手段,各种处理改进的方法不同, 一定程度上都会影响到结果。但究其本质是相通的,所以用这种处理方法是可行的,具有一定的参考性。

六、模型的评价及改进方向

1. 评价

该模型可以对企业现有职工的工资情况进行分析,同样也可以依据现有职工的工资情况作为新招募职工工资的参考依据制定相应标准。该模型可以较为广泛的应用在企业职工工资的评价体系中,具有很大的实际应用空间。

1) 模型的优点

(1)模型尽可能的考虑出现的各种情况即不确定性,通过对模型的不断修正和计算方法的改进,最终使得模型比较接近实际并具有一定的可行性;

(2)模型的建立经历了从简单到复杂,从主观因素较大到逐渐剔除主观因素增加客观因素的探索过程,符合对未知事物的探索求知过程;

(3) 对学历、性别等非连续型变量处理时,较为恰当的使用经典的0-1整数规划思想;

(4)通过逐步回归的方法使得问题处理得到简化;

(5)利用强大的数学计算软件MATLAB 对模型进行求解,增强数据处理的权威性,可信度;

(6)在模型修正中,通过对数据的曲线拟合后再合理的引入了平方项,使得修正的模型有较好的理论基础;

2) 模型的不足

(1)模型只考虑了数据附表中的因素,忽略了其他可能的因素使得模型可能与实际有少许的计算偏差;

(2)模型中使用了对数据的常规处理方法,但这些方法在处理数据上可能会有一定程度的误差;

(3)模型的初始阶段假设了工龄和学历的影响较大,这样未免带有一定的主观因素;

2、改进方向

模型中只考虑了工龄性别等几个因素对工资的影响实际上,影响工资的因素可能有很多,怎样去对待企业中的“特殊族”是否需要制定专门的政策对他们倾斜要结合企业的实际情况。由于影响的因素很多,并且不同的因素本身就就一定的差异性,如影响因素是连续变量还是离散变量,是随机的还是确定的等等。影响因素之多加上很多的未知性,考虑往多项式回归的改进。这样可以更好的将每一个影响因素对工资的影响区分开来,相比多元回归更科学合理。还可以在模型的计算求解中利用专业的统计软件对每一项进行单一统计分析,考察每个因素与工资的某种数学关系,综合各个因素建立更好的模型。

七、参考文献

[1] 扬启帆,何勇,谈之奕,杭州:数学建模竞赛-浙江大学学生获奖论文点评(1999-2004) ,浙江大学出版社,2006。

[2] 姜启源,谢金星,叶俊,数学模型(第三版),北京:高等教育出版社,2009。 [3] 韩中庚,数学建模方法及其应用,北京:高等教育出版社,2006。 [4] 赵东方,数学模型与计算,北京:科学出版社,2007。 [5] 宋来忠,王志明,北京:科学出版社,2005。

19

附表(2):

20

21

A 题:垃圾分类处理与清运方案设计

垃圾分类化收集与处理是有利于减少垃圾的产生,有益于环境保护,同时也有利于资源回收与再利用的城市绿色工程。在发达国家普遍实现了垃圾分类化,随着国民经济发展与城市化进程加快,我国大城市的垃圾分类化已经提到日程上来。2010年5月国家发改委、住房和城乡建设部、环境保护部、农业部联合印发了《关于组织开展城市餐厨废弃物资源化利用和无害化处理试点工作的通知》,并且在北京、上海、重庆和深圳都取得一定成果,但是许多问题仍然是垃圾分类化进程中需要深入研究的。

在深圳,垃圾分为四类:橱余垃圾、可回收垃圾、有害垃圾和其他不可回收垃圾,这种分类顾名思义不难理解。其中对于居民垃圾,基本的分类处理流程如下:

在垃圾分类收集与处理中,不同类的垃圾有不同的处理方式,简述如下: 1)橱余垃圾可以使用脱水干燥处理装置,处理后的干物质运送饲料加工厂做原料。不同处理规模的设备成本和运行成本(分大型和小型)见附录1说明。

2) 可回收垃圾将收集后分类再利用。 3) 有害垃圾,运送到固废处理中心集中处理。 4)其他不可回收垃圾将运送到填埋场或焚烧场处理。

所有垃圾将从小区运送到附近的转运站,再运送到少数几个垃圾处理中心。显然,1)和2)两项中,经过处理,回收和利用,产生经济效益,而3)和4)只有消耗处理费用,不产生经济效益。

本项研究课题旨在为深圳市的垃圾分类化进程作出贡献。为此请你们运用数学建模方法对深圳市南山区的分类化垃圾的实现做一些研究,具体的研究目标是: 1) 假定现有垃圾转运站规模与位置不变条件下,给出大、小型设备(橱余垃圾)的分布设计,同时在目前的运输装备条件下给出清运路线的具体方案。以期达到最佳经济效益和环保效果。

2) 假设转运站允许重新设计,请为问题1)的目标重新设计。

仅仅为了查询方便,在题目附录2所指出的网页中,给出了深圳市南山区所有小区的相关资料,同时给出了现有垃圾处理的数据和转运站的位置。其他所需数据资料自行解决。 附录1

1)大型厨余垃圾处理设备(如南山餐厨垃圾综合利用项目,处理能力为200吨/日,投资额约为4500万元,运行成本为150元/吨。小型餐厨垃圾处理机,处理能力为200-300公斤/日,投资额约为28万元,运行成本为200元/吨。橱余垃圾处理后产物价格在1000-1500元/吨。 2) 四类垃圾的平均比例

橱余垃圾:可回收垃圾:有害垃圾:其他不可回收垃圾比例约为4:2:1:3。可回收垃圾划分为纸类、塑料、玻璃、金属四大类,大概比例分别是:55%、35%、6%、4%。纸类、塑料、玻璃、金属四类的废品回收价格是每公斤: 1元、2.5元、0.5元、2.5元。

3)南山区的垃圾清运设备情况(主要是车辆数目和载重)。 拖头(拖车):

只拖十吨的大型厢,只用于从转运站到垃圾中心,每次只拖一个大型“厢”, 平

均吨公里耗油25L —30L 柴油/百公里。 收集车辆:

只负责从小区的垃圾站到转运站运输。100辆2.5吨汽车,每车耗油20L —35L 70#汽油/百公里。

司机月薪平均3500元。

附录2. 部分有关资料请上网站www.adamsw.com ,在数学建模基础数据页之垃圾问题基础数据下载:1)垃圾转运站垃圾转运量等情况统计表(南山),2)南山区居民数据,3)中转站位置图。

B 题:水资源短缺风险综合评价

水资源,是指可供人类直接利用,能够不断更新的天然水体。主要包括陆地上的地表水和地下水。

风险,是指某一特定危险情况发生的可能性和后果的组合。

水资源短缺风险,泛指在特定的时空环境条件下,由于来水和用水两方面存在不确定性,使区域水资源系统发生供水短缺的可能性以及由此产生的损失。

近年来,我国、特别是北方地区水资源短缺问题日趋严重,水资源成为焦点话题。

以北京市为例,北京是世界上水资源严重缺乏的大都市之一,其人均水资源占有量不足300m 3,为全国人均的1/8,世界人均的1/30,属重度缺水地区,附表中所列的数据给出了1979年至2000年北京市水资源短缺的状况。北京市水资源短缺已经成为影响和制约首都社会和经济发展的主要因素。政府采取了一系列措施, 如南水北调工程建设, 建立污水处理厂, 产业结构调整等。但是,气候变化和经济社会不断发展,水资源短缺风险始终存在。如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。

《北京2009统计年鉴》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和你自己可获得的其他资料,讨论以下问题:

1 评价判定北京市水资源短缺风险的主要风险因子是什么?

影响水资源的因素很多, 例如:气候条件、水利工程设施、工业污染、农业用水、管理制度,人口规模等。

2建立一个数学模型对北京市水资源短缺风险进行综合评价, 作出风险等级划分并陈述理由。对主要风险因子, 如何进行调控,使得风险降低? 3 对北京市未来两年水资源的短缺风险进行预测,并提出应对措施。 4 以北京市水行政主管部门为报告对象,写一份建议报告。

附表 1979年至2000年北京市水资源短缺的状况

注:2000年以后的数据可以在《北京2009统计年鉴》上查到。

深圳也是我国严重缺水的城市。你们也可取代北京,对深圳水资源短缺风险进行相应的研究。

C 题:测井曲线自动分层问题

在地球物理勘探中需要利用测井资料了解地下地质情况,其中测井曲线分层是首先要完成的基础工作。测井曲线分层的目的是为了在今后的研究中,便于对具有不同特点的地层确定研究目标,以及确定将要重点研究的地层,统一不同井号的研究范围。

通常,在一个区域内,通过前期地质研究工作,结合各种测井数据,首先对最早开发的参考井进行详细研究。每一种测井数据,都反映了地质结构的特点和地层的变化,地质人员通过经验,综合各种测井数据反映的地层特点,将井从一定深度开始,对井进行井层划分和命名,如1号井从距井口深368米处开始,依次往下,定名为长31、长32、长33、长41、长42、长61、长62、长63、长71、长72、长73、长81、长82、长91、长92等地层。接着在分析随后开发的2号井时,也根据和1号井分层的特点和规律,依次定名为长31、长32、长33、长41、长42、长61、长62、长63、长71、长72、长73、长81、长82、长91、长92等地层。井的位置不同可能会导致这口井的每一个层位的深度范围也不同,甚至有可能会出现缺失中间某层的现象。如第6号井缺长31、长32层。通常这些工作都是通过人工来进行的,这就是所谓人工分层方法。该方法不仅费时费力,而且分层取值过程中受测井分析人员的经验知识和熟练程度影响较大,主观性较

强,也会因为不同的解释人员的个人标准有误差,而造成不同的人员有不同的分层结果。

自动分层的基本思想、实现手段是一个不断发展变化的过程。由人工分层到自动分层,除了计算机工具的引入,各种数据处理技术也被应用于自动分层。随着一个区域开发井的数量增加,我们希望利用已有分层井点数据与变化特点作为控制点,结合每口井丰富的测井曲线数据,如密度 (DEN)、声波 (AC)、中子 (CNL)、自然伽玛 (GR)、自然电位 (SP) 和电阻率 (RT) 等的变化特点,建立合理的数学模型,实现井位分层人工智能处理,也就是实现自动分层。相对于人工分层,自动分层可以避免人为分层的随意性,并可在很大程度上提高工作效率。进行具体的井位分层人工智能处理,这将极大地提高工作效率。另一方面,希望通过自动分层处理,与人工分层的结果进行比较分析,进一步提高分层精度。

下面请完成以下工作: 1.

以1号井为标准井,根据此井的各种测井曲线数据,建立数学模型,对第2号至7号井进行自动分层,并且通过分析,与人工分层结果进行比较分析。考虑是否需要利用你所建立的数学模型,对1号井的分层结果进行说明。 2.

通过前面人工分层与自动分层的比较结果,以及已给的各种测井曲线数据,确定合适的数学模型对第8号井至13号井进行自动分层,并分析你的结论。

数据见附件1和附件2

附件1 (1-13号井测井数据) :第二行是开始记录数据的井位深度,第三行是结束记录数据的井位深度。第四行为记录井位数据的间距。第五到第七行为66种不同的测井数据,接下即为记录的具体数据。其中,DEPTH 代表井位深度,其他的数据一部分为测井曲线,如DEN (密度) ,RILD (深感应电阻率) ,RILM (中感应电阻率) ,R4.0 (4M电阻率) ,SP (自然电位测井) ,GR (自然伽玛测井) ,AC (声波测井) ,RML (微侧向电阻率) ,CNL (中子密度测井) ,RT (电阻率测井) ,WA (视地层水电阻率), RMFA (视泥浆电阻率) 等,还有一部分代表地层的特性,如DEVi (井斜) ,AZIm (井斜方位) ,CAL (井径) ,PORW (含水孔隙度) ,PORT (总孔隙度) ,POR (孔隙度) ,PORR (有效孔隙度) ,PORF (冲洗带饱含泥浆孔隙度) ,PERM (绝

对渗透率) ,SW (总含水饱和度) ,SH (泥质含量) ,SXO (冲洗带含水饱和度) ,POW (含水孔隙度) ,CARB (煤的含量) ,FW (产水率) ,BULK (出砂指数) ,CALC (井径差值) ,CL (粘土体积) ,PORX (流体孔隙度) ,PORH (油气重量) 等等。

注:数据中-9999.000是无效数据,它可能是因为测量仪器对某种属性不敏感而导致的。

附件2 (井位数据) :第2、3列为井的坐标位置,后面各列标出了不同名称层位的底深 (表示该层位结束时的深度) ,即可确定每个地层的所在深度范围。

D 题:用出租车GPS 数据分析深圳道路交通情况

各大城市出租车越来越多的安装了GPS 终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS 实时数据。原始数据主要保存出租车上装配的GPS 终端所采集的数据,这些数据包括序号,车牌号码,GPS 时间,经度,纬度,车辆状态(空车、重车) ,车辆速度,车辆方向(8个方向) 等信息。附注网站提供了深圳市出租车GPS 数据,从这些数据你是否能够:

1. 根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。

2. 根据小区划分和出租车GPS 数据,给出载客出租车的OD 时空分布。如:某时刻从坐标(i , j ) 到(i ', j ') 、(i '', j '') 的出租车有多少辆。

3. 由此,在合理的假设条件下,能否对人们出行的OD 时空分布进行推断? 4. 根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。

附注:部分有关资料请上网站www.adamsw.com ,在数学建模基础数据页之交通问题基础数据下载:深圳出租车GPS 数据,数据文件较大,我们分解成若干个小文件提供。

E 题:家政服务人员合理的工资报酬

随着人们生活水平的提高、生活节奏的加快、工作压力的增大以及人口日趋老龄化,社会对家政服务的需求越来越大。当前人们雇请家政服务人员的渠道不一,有的通过妇联介绍、有的通过家政中介介绍、有的通过熟人介绍。与此同时,相同的服务内容得到的报酬也不一样,甚至高低相差较大。因此,亟待政府规范家政服务行业,制定统一的工资标准,减少家政服务人员与雇主的矛盾,促进社会和谐。

由于家政服务内容所涉及的因素多,每个家庭需要提供的服务不尽相同,因此统一制定工资标准就比较复杂。

为了研究问题方便,我们假定家政服务的内容主要包括打扫卫生、做饭、洗衣服、带小孩和护理病人等。

打扫卫生分为每周打扫1次—7次;做饭分为每天做1餐或2餐,每周做5天—7天;洗衣服分为每周洗1次—7次;带小孩和护理病人每周可能服务5天—7天。

需要解决下列问题:

1.定性分析影响工资报酬的因素以及工资报酬与这些因素之间的关系; 2.建立数学模型,定量刻划工资报酬与这些因素之间的内在关系; 3.利用问题2的结果,给出各种家政服务及其合理组合的工资标准; 4.就目前吉林省普通工人的平均工资水平,论证问题3中各种工资标准的合理性。

F 题:个人所得税改革方案的定量分析

“十一五”是我国经济社会发展的关键时期。党的十六届五中全会确立了“十一五”时期经济社会发展的指导思想、基本原则和目标任务,并对推进税制改革,加强税收征管,发挥税收作用提出了具体要求。税制改革的基本内容可以概括为四个部分:其中之一是个人所得税的改革。把现行的个人所得税、个人收入调节税和城乡个体工商所得税合并,建立统一的个人所得税。

2011年是“十二五”的开局之年, 4月25日全国人大常委会办公厅公布了《中华人民共和国个人所得税法修正案(草案)》,向社会广泛征求意见,公众参与热情极高。据了解,人们对草案较为关注的问题包括:对个税免征额调高至3000元是否合理、级次级距调整是否加重中等收入人群负担、个税调整对财政收入有多大影响等。请你们选择感兴趣的某些指标,建立数学模型,提出你认为合理的个人所得税改革方案,并利用互联网数据,定量地分析该方案的合理性,为该方案给出科学的理论依据。

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 许昌学院 参赛队员 (打印并签名) :1. 赵龙安

指导教师或指导教师组负责人 (打印并签名) :

日期: 年 月 日

赛区评阅编号(由赛区组委会评阅前进行编号):

编 号 专 用 页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

职工工资的数学模型

摘要:

本题是分析人们关注的职工工资的问题,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。为了科学合理的制定企业的工资制度,我们建立了数学模型进行分析。

针对问题,我们采用了多元线性回归的数学模型对其进行分析计算,假设影响的因素都是呈线性显著相关,利用多元回归分析进行求解计算,并用求解结果来分析检验是否所有因素都是其明显的影响因素。通过多元线性回归的最小二乘法和逐步回归的方法我们逐步剔除了那些对日平均工资影响不明显的因素,使得问题处理得到简化。

但是从模型的假设和符号的说明中分析,工龄可以近似的看作能够连续的变量,而学历和培训情况却是离散变量。改进后的模型考虑到了各个因素对工资的影响并非都具有线性关系,利用MATLAB 进行的曲线拟合,引入平方项进行模型的修正。

在模型的建立中,我们利用了强大的数学计算软件MATLAB 对模型进行求解,增强数据处理的权威性和可信度。其中在建立模型过程中用到了MATLAB 统计工具箱中的stepwise 命令和regress 命令,在模型修改过程中用到了MATLAB 中曲线拟合工具箱(Curve Fitting Tool )。

最后,得出了符合实际情况的数学模型,分析了题目所给的问题,并且可以较为广泛的应用在企业职工工资的评价体系中,具有很大的实际应用空间。

关键字:多元线性回归;最小二乘法;逐步回归;曲线拟合

一、问题的提出

职工工资可以说是人们最为关切、议论最多的部分,因此也常常是最受人们重视的部分。总的来讲,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。科学合理的职工工资制度,是激励职工的劳动积极性、主动性、创造性重要动力,是提高劳动效率的重要手段,正确运用工资的杠杆作用在调动职工的劳动积极性等方面会起到事半功倍的效果,进而更好的促进实现企业的安全、生产、经营目标,以实现更大的经济效益。

为了科学合理的制定企业的工资制度,需要调查、统计和分析企业现行的职工工资状况,为制定科学合理的工资制度提供参考依据。此外,同样需要考虑企业中的特殊情况。比如:“特殊职务族”,对于此类“特殊族”是否需要制定和执行一定的特殊优惠政策,如对管理干部、高级专家、女工等特殊人群,也是需要考虑在内的。

现随机抽取了某企业若干职工的相关数据,见附件Bdata.xls 。请建立适当的数学模型研究下列问题: (1)分析平均日工资与其他因素之间的关系,尤其需要说明与哪些因素关系密切;

(2)考察女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入; (3)继续改进你的模型,并给出模型误差分析。

二、模型假设与符号说明

1.模型建立 1)职工工资的决定因素只与工龄等本模型所涉及的七个因素有关,与其它因素没有关系;

2)样本数据是通过有效地统计方法获得的,即数据是有效的可信的;

3)样本数据在该企业具有广泛的代表性,样本的采集考虑各个层次的比重,可以作为全企业的参考依据;

4)各因素之间相互独立,不存在交互作用; 5)样本数据是确定的,不存在随机性;

6)各因素的观测值没有系统误差,随机系统误差的平均值为0; 7)样本中日平均工资服从正态分布;

2. 符号说明

y 日平均工资

⎧1 男性 x 1 = ⎨

0 女性 ⎩ x = 工龄(月)

⎧1 其他 ⎧1 已婚女性 = x ⎨ x 3 = ⎨ 5 ⎩0 两年内无一工作经历 ⎩0 未婚女性、男性

⎧1 技术岗位 ⎧1 本科

= x ⎨ ⎪ 6 2硕士 ⎩0 管理岗位 ⎪

= x 4 ⎨

⎧1 受过培训 ⎪3 博士、博士后= x ⎨

⎪ 7 ⎩0 其他⎩0 未受培训

2

三、问题的分析

对于问题(1),要求分析平均日工资与其他因素之间的关系,并且说明与哪

些因素关系密切。就职工工资而言,按照一般常识,工资自然随着工龄(月)的增长而增加,管理人员的工资一般高于非管理人员,教育程度越高相应的工资也越高,有一线工作经历和受过培训对工资的提高也会有帮助,因为一般企业都是针对业务骨干或者重点培养的对象才会有机受到培训。现在有90组样本数据,每组数据中包含了工龄、学历、性别等各个因素。想要分析判断日平均工资与哪些因素有关系,且考虑与哪些因素具有密切关系。首先考虑到样本数据较多,可以利用概率统计的知识来进行初步的统计分析。从数据原始表格分析可知,日平均工资的影响因素很多,但具体有哪些因素是真正影响或者说有明显影响日平均工资的因素需要进行更深层次的数据处理以及分析。影响工资的因素之多,为此我们建立一种多元线性回归的数学模型对问题进行分析计算。假设影响的因素都是呈线性显著相关,利用多元回归分析进行求解计算,并用求解结果来分析检验是否所有因素都是其明显的影响因素,利用统计学知识来判断日平均工资与哪些因素具有明显的关系,如线性回归系数对应的置信区间是否包含零点来判断。由于样本中影响日平均工资的因素较多,其中可能有些因素对其影响并不明显,我们需要逐步剔除那些对日平均工资影响不明显的因素,因此试图通过统计回归分析中的逐步回归来实现。以MATLAB 统计工具箱中的stepwise 命令或者regress 命令来求解判断。

对于问题(2),要求考察女工是否受到不公正待遇,以及她们的婚姻是否影

响其收入:

1)考察女工是否受到不公正待遇需要理解“不公正待遇”的含义,什么样的情况算是女工受到了不公正待遇,与什么相比较得出其受到不公正待遇以及受到不公正待遇的表现形式,如平均日工资不同,还是工作性质不同等等。“不公正待遇”在本模型中作如下解释:不公正待遇是指在其他因素相同或者相差不明显时由于性别的不同而使日平均工资有明显差异,即考虑在该企业内是否存在性别歧视。

2)对于女性职工,婚姻状况是否会影响其收入,要科学合理的考察是否有影响,需要将女性职工的样本数据单一地列出也就是在同时考虑女性的条件下考虑婚姻与否对日平均工资影响。有问题(1)可以了解到影响日平均工资的因素可能并不是样本数据中的所有数据,或许只有其中某些因素有密切关系。因此对于问题(2)在数据的获取中应当剔除那些对工资影响不明显的因素,只保留影响较为明显的因素,这样更为科学合理,模型的处理也相对简单,并且相对容易地进行计算验证。

对于问题(3)模型的改进环节中,应当考虑到起初对模型的假设中各个因素之间对日平均工资的影响相互独立,没有交互作用。做这样假设的初衷是为了对模型做简单化处理,因为起初对于一个样本数据,我们并不能很快就理清各数据之间的联系。为了方便处理,做简单的模型简化是符合数学模型的建立步骤的,从简单到复杂逐步加深,逐步修正模型最后达到建立一个科学合理的数学模型。在问题(1)中可以得到众多因素中可能只有某些因素与工资有明显关系,为了使模型更为科学合理对模型做如下的修正:考虑到实际情况中影响日平均工资的各个因素之间会有一定程度的交叉现象,可以依据原始模型中问题(1)的结果对模型做适当修正,对影响效果较为明显的因素引入交互相,做交互分析。期望能得到更合理的模型。

四、模型的建立与求解

1. 模型的建立:

问题(1):对于对日平均工资的影响给出了7个自变量,为了便于说明分别用x 1~x 7 表示,日平均工资用y 表示。

虽然给出了7个自变量,并不一定这7个自变量对y 都有显著的影响,为此需要考虑如何从这7个自变量中找出对y 有显著影响的自变量。为简单起见,先建立多元线性回归模型,模型如下:

y =β0+β1x 1+β2x 2+β3x 3+β4x 4+β5x 5+β6x 6+β7x 7+ε (1)

其中β0~β7为线性相关的回归系数,x 1~x 7为自变量,y 为日平均工资,ε为随机误差;将(1)式化为:

y =β0+βx +ε (2)

2

3

90

⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭

β0⎫β1⎪⎪β2⎪

⎪β3⎪β4⎪

⎪β5⎪β6⎪⎪β7⎪⎭

⎛y 1⎫

⎪y 2⎪ y 3⎪ ⎪⎛x

11Y= ⎪

X ⎪= ⎪ x ⎪⎝90 y ⎪⎝90⎭⎛β0⎫ ⎪βε1⎫ 1⎛⎪ β2 ⎪⎪

ε2⎪ ⎪ β3 ⎪ε3⎪β= ⎪⎪β4εε4⎪ = ⎪ β5 ⎪ε5⎪

⎪⎪βε6⎪ 6 ⎪ β ⎪⎪⎝7⎝⎭ε7⎭

⎛x 11

x 17⎫X =

⎪ x ⎪

⎝90

⎪x 97⎭

x 17 x 97

⎫⎪⎪⎪⎭

⎧1⎫

⎛ε1⎫⎪β⎪ ⎪⎪2⎪ε 2⎪⎪β3⎪ ε3⎪⎪⎪ β=⎨β4⎬ ⎪

⎪β⎪ε= ε4⎪

⎪5⎪ ε⎪⎪β6⎪

5⎪⎪⎪

⎩β7⎭ ε6⎪

⎪ε ⎝7⎭

β

模型回归系数β的最小二乘估计

β0, β1, β2, , β7

^^^^

所谓最小二乘估计就是寻求参数β0, β1, β2, , β7的估计值,离差平方和

Q (β0, β1, β2, , β7) =∑(y 1-β0-β1x i 1- -β7x i 7) 2(i =1,2, ,90)

i =1

^^^^

达到最小,即寻求回归系数的估计值β

0, β1, β2, , β7

n

(3)

满足

Q (β0, β1, β2, , β7) =∑(y 1-β0-β1x i 1- -β7x i 7) (4)

i =1

n

=min ∑(y 1-β0-β1x i 1- -β7x i 7) 2(i =1,2, ,90)

i =1

n

2

^^^^

按照(4)式求出回归系数的估计值就是回归系数的最小二乘估β

0, β1, β2, , β7

计 。

2. 模型的求解:

用MATLAB 统计工具箱求解线性回归方程,利用regress 命令求解, 得到结果如表(0):

在表(0)中,经过初步的统计分析得到了除x 6以外,其余自变量对y 均有影响,这是使用多元线性回归得到的结果。结果显示性别工龄等对y 均有影响,其中性别对y 有影响,这可能说明该企业有性别歧视,为了更好的理解该企业是否存在性别歧视,尝试使用不同的方法进行分析。

对于问题(1),使用MATLAB 统计工具箱进行求解,由于建立了多元线性回归模型,且影响y 的因素较多,既需要考虑各个自变量对其的影响也要考虑在众多自变量中哪些自变量对其的影响更大即对y 有显著影响。去除影响较小的保留影响较大的,才能使得模型科学合理。在问题(1)的分析中已经提及过,比较恰当的方式是通过逐步回归法求解。 根据式子(2),求解步骤如下:

确定一个包含x 1~x 7中的若干个自变量的初始集合,然后每次从集合外引入一个对因变量影响最大的,在对集合中的自变量进行检验,从变得不显著的自变量中移出一个影响最小的,依次进行,直到不能引入或移出为止。引入和移出都以给定的显著性水平为标准。

利用MATLAB 统计工具箱中的逐步回归命令stepwise ,该命令提供了人机交换画面,决策者可以在画面上自由的引入和移出自变量,进行统计分析。

调用MATLAB 进行求解:使用stepwise (x ,y), 其中x 即式子(2)中的x (自变量的矩阵),y 为因变量的矩阵(日平均工资)。依据常规经验,对因变量影响最大的是工龄和学历。不妨先使用工龄和学历这两个自变量进行统计分析,使用MATLAB 统计工具箱中的stepwise (x ,y)命令得出如下结果:

图(1)

对图(1)中内容解释如下:F=147.545 代表着F 分布的检验值,显然远大于临界值,符合要求。P 值更是远小于0.0001,R-square=0.7702305 代表决定系数,其值的大小代表着因变量y 的多少可以有模型来确定。虽然在该模型中只有77.23%来确定y 的值,但基于上述求解只考虑了x 2和x 4对y 的影响,即工龄和学历对日平均工资的影响,说明了工龄和学历对日平均工资的影响效果是很显著的,基本上可以得出工资和学历对日平均工资有密切关系。在图(1)中红色数字和直线表示移出的变量,绿色的数字和直线表示在模型中的变量。

由于上述模型只把常规上对因变量y 影响最大的考虑在内,如果完全就按照上述的方法来做决策,未免带有很大的主观性,如果以此为依据对职工工资做预算或者调整显得不够谨慎,一旦有些许的错误可能就会给企业和职工双方带来很大的危害。为了更好的考察各个自变量x 对y 的影响,对各个自变量分别进行回归分析,即依次将x 1~x 7引入模型中进行单一的统计分析,记录每一次得到的计算结果F 、P 、R-square 等数据,然后对数据进行处理分析,观察在单一变量的情况下,比较哪些自变量x 对因变量y 的影响相对大一些,保留较为合理的剔除明显不合理的,对介于模糊边缘的再利用x 和y 的相关系数矩阵取统计分析,尽可能的减少由于主观因素而得到不合理的结果,将主观因素的误差降到最小。在得到对因变量影响较为明显的自变量后,重新考虑这样影响较大的因素之间结合对模型的影响,记录数据进行分析。

1) 每个自变量对因变量的影响:

2) 综合因素对因变量的影响:

在表(1)中,考虑R-square 、F 、P 、RMSE 四个值对结果的影响,由于在图(1)中已经将图中内容做过解释,在此就不另作详解。其中,R-square 越接近1,模型做出的结果越趋于准确,F 越大于F 分布的检验值,P 值远小于0.0001,RMSE 越小模型越合理。

① 比较分析表(1)的数据可得出如下结论:

在仅仅考虑一个自变量的影响时,自变量x 2、x 4、x 7对因变量y 的影响比较明显,其中x2的影响更为明显,从R-square 的值和F 的值可以看出。而x 1、x 3、x 5、x 6对y 的影响中,

R-square 趋近于0, 说明这些因素对y 的影响较小。因此,可以考虑保留x 2、x 4、x 7,将其余变量剔除。

继续探索更好的更准确的影响因素,将x 2和x 4,x 2和x 7,x 4和x 7,x 2、x 4和x 7分别移入有效变量中统计分析得到如下结果:

② 比较分析表(2)的数据可知:

当引入x 2和x 4时对y 影响明显,各项统计值如:R-square ,F 分布的检验值,概率P 也都符合理论值。当然从x 2、x 4和x 7对y 的综合影响来看也符合,不足的是引入x 4或x 7后对R-square 值的提高、RMSE 的减小并没有起到很大的作用,相反使得F 检验值下降的范围较大,x 7使得F 检验值下降更为明显。因此,综合各方面的因素考虑得出问题(1)的结果:在工龄、性别、学历等七个因素中,工龄(x 2)、学历(x 4)、培训情况(x 7)对日平均工资(y )的影响较大,即上述三者与日平均工资的关系密切。

综上所述:在考虑多元线性回归的最小二乘法估计和逐步回归的分析,结合实际情况对于问题(1)作如下总结:

y =57.6633+1.24064x 1+0.1023x 2-0.412081x 3+10.1043x 4-1.23417x 5+0.254786x 6+2.83814x 7

^

对模型中的回归系数作如下解释:x 1的系数为1.24064,说明当男女条件相同时男职工的日平均工资比女性高大约1.24元;x 2的系数为0.1023,说明在其他条件不变情况下,工龄增加一个月,工资增长0.1023元;x 3系数为-0.41208,说明相同情况已婚女性比未婚女性日工资低0.41元;x 4的系数为负数,在这里需要强调一点,因为模型的符号说明中假设本科为1、硕士为2、博士和博士后为3,负数恰恰说明了工资中本科小于硕士小于博士和博士后,即学历越高其工资也相应越高;x 5的系数为-1.23417,说明该企业技术岗位的工资要比管理岗位的低一点;x 6的系数为0.254786,说明有过一线工作经历的要比没有一线工作经历的职工稿子稍高一点;x 7的系数为2.83814说明受过培训的要比没受过培训的工资高一点;其中在各个因素中x 2对y 的影响最大,说明工龄对职工工资的关系最密切;其次是x 4和x 7,说明学历和培训对工资的影响也是很明显的;影响最小的是性别,次之是工作性质。

对问题(2)考察女工是否受到不公正待遇,从问题(1)的求解来看。首先,性别对工资的影响最小,问题(1)中是将全部职工放在一起做的比较,既然是全部职工都包括的情况下得到性别对工资的影响最小。很显然在考虑男女职工的情况下得出性别的影响作用最小,那么可以得出这样的结论:女工没有受到不公正的待遇。对于婚姻状况是否影响女性工资收入,因为都是在考虑女性所以将所有女工的数据信息抽取出来做单独分析。只有在都是女工的情况下比较婚姻是否影响其工资收入,只有保证了变量的单一性,才能科学合理的做出判断。将女性数据重新整理汇总,见附表(2)。

由问题(1)得知工龄、学历和培训情况对工资影响较大,分析附表(2)的数据发现受到培训的人员较少,所以结合实际应考虑主要部分,为此培训情况在下述讨论中将不涉及。初步分析中将数据用excel 处理,由于女性本科以上学历较少所以不予统计在内。分别考虑女性本科学历同为技术岗位和女性本科学历工资随工龄的变化情况见图(3)和图(4):

图(3)

图(4)

从图(3)和图(4)的观察分析可以得到初步简单的结论:技术岗位中女性婚姻与否对工资影响不是非常明显,有很小的波动范围是允许的,计算方法本身也会有一定的误差,管理岗位中女性未婚职工同样很少,分析其原因管理岗位一般都需要有一定的工作经验,换而言之管理岗位的职工工龄相对较大,这样未婚女性就会很少,可以将这些数据作为异常点剔除。综合考虑得到女性婚姻与否基本上不影响其收入。

五、模型的改进

由原始模型的出了与日平均工资最为密切的是工龄、学历和培训情况。从模型的假设和符号的说明中分析,工龄可以近似的看做能够连续的变量,而学历和培训情况却是完全的离散变量,为了便于处理我们引用了经典的做法:将学历和培训做成0-1证书变量,这位上面的求解带来了很大的方便。因为上述三者对收入的影响相对来说最为明显,模型的改进就从这三个方面着手修改更正。考虑到实际情况中工龄较为好处理,首先分析了工龄和工资的关系,并利用excel 做出了工龄与日平均工资的关系图。以工龄为横轴,日平均工资为纵轴做出散点图,见图(5):

图(5)

从图(5)工龄和日平均工资的分析可以看出工龄和日平均工资的线性关系对其拟合的很不完善,预测图形(5)中日平均工资随工龄的变化时在刚开始工作时,随着工龄的增加日平均工资成非线性关系的增长,在一定时期内变化趋势可能符合指数增长或者幂指数增长。在excel 中得到了工资与工龄的函数关系大致为: y 4. 674x 0. 9093 (5)

通过对工龄和工资的初步处理分析得到了工龄和工资之间可能是指数型或幂指数型的函数关系,为了寻求一种更为合理误差更小的关于工龄和工资的关系,利用MATLAB 中的绘图命令做出了工龄和工资的散点图,见图(6):

图(6)

由图(6)得知工资在起始阶段可能与工龄呈线性关系,增长也较快但经过一段时间的工作,其工资随工龄的增长放缓,在相当的时期内工资增长不大或者基本不增长,但其工资基本上维持在较高的水平,这与企业在实际的情况也相吻合。说明经过一步的探索,工龄与工资的关系也越来越明朗,但比较图(5)和图(6)还是不能很客观准确得出工龄与工资的关系,换而言之我们还不能有效得用数学关系式来相对准确的进行定量的分析。在企业中我们迫切需要定量的衡量工资标准,而不是依靠经验。为此,使用MATLAB 中数据拟合的功能来进一步的探索。在MATLAB 中已经得到了工龄和工资的散点图图(6),对图(6)进行曲线拟合,使用曲线拟合工具箱(Curve Fitting Tool),得到如图(7)所示结果:

图(7)

拟合的曲线函数式为

y = p1*x3 + p2*x2 +p3*x + p4

其中,

Coefficients:

p 1 = 1.2118e-006 p 2 = -0.0011801 p 3 = 0.3912 p 4 = 26.555

Norm of residuals = 84.106

图(7)是利用MATLAB 进行的曲线拟合,曲线拟合工具箱在给出图形的时候一并将工龄和工资的函数关系也描述出来,利用专业的数据处理工具箱得到的结

果具有一定的可信度,因此引入平方项进行模型的修正,这里没有考虑学历和培

训情况需要做简单解释:从问题(1)求解的表(1)中可知虽然工龄、学历和培训情况对工资的影响有密切关系,相对其余的因素来说这三者的影响最大,从 表(1)中也可以分析出如果只比较上述三者对工资的影响显然工龄的影响远大于另外二者。

基于上述原因,并且考虑工龄不可能无限大,而曲线拟合中三次方的系数远小于0.01,因此舍去x 2的三次方只引入x 2即工龄的平方项进行模型的修正,对模型重新进行求解,但可以参照上述求解的主要过程。建立新的修正模型如下:

2

y =β0+β1x 1+β2x 2 + +β7x 7+ε (6)

⎧β1⎫

⎪β⎪⎪2⎪⎪β3⎪⎪⎪

y =β0+βx +ε β=⎨β4⎬

⎪β⎪⎪5⎪⎪β6⎪⎪⎪⎩β7⎭

⎧ε1⎫⎡x i 1⎪ε⎪⎢2⎪⎪⎢ ⎪⎪ε=⎨ ⎬⎢ x =

⎢⎪ ⎪

⎢ ⎪⎪

⎢x ⎪⎩εn ⎪⎭⎣n 1

x i 22

x ik

2

x n x nk 2

x i 7⎤

⎥(n=0,1,2,3,4„90)

⎥ ⎥ x n 7⎥⎦

利用MATLAB 统计工具箱进行求解,得到结果如图(8):

图(8)

修正后模型求解的结果在某些方面可能不如原有模型,如F 检验值有很大的波动下降很大,但F 得检验值仍然满足要求。改进后的模型考虑到了各个因素对工资的影响并非都具有线性关系,依据问题(1)和曲线拟合的结果对模型做了引入平方项的修正还是比较合理的。模型经过科学合理的优化使得计算的误差进一步缩小。当然对模型的处理改进可能会有很多种方法,我们也只是利用了一种处理手段,各种处理改进的方法不同, 一定程度上都会影响到结果。但究其本质是相通的,所以用这种处理方法是可行的,具有一定的参考性。

六、模型的评价及改进方向

1. 评价

该模型可以对企业现有职工的工资情况进行分析,同样也可以依据现有职工的工资情况作为新招募职工工资的参考依据制定相应标准。该模型可以较为广泛的应用在企业职工工资的评价体系中,具有很大的实际应用空间。

1) 模型的优点

(1)模型尽可能的考虑出现的各种情况即不确定性,通过对模型的不断修正和计算方法的改进,最终使得模型比较接近实际并具有一定的可行性;

(2)模型的建立经历了从简单到复杂,从主观因素较大到逐渐剔除主观因素增加客观因素的探索过程,符合对未知事物的探索求知过程;

(3) 对学历、性别等非连续型变量处理时,较为恰当的使用经典的0-1整数规划思想;

(4)通过逐步回归的方法使得问题处理得到简化;

(5)利用强大的数学计算软件MATLAB 对模型进行求解,增强数据处理的权威性,可信度;

(6)在模型修正中,通过对数据的曲线拟合后再合理的引入了平方项,使得修正的模型有较好的理论基础;

2) 模型的不足

(1)模型只考虑了数据附表中的因素,忽略了其他可能的因素使得模型可能与实际有少许的计算偏差;

(2)模型中使用了对数据的常规处理方法,但这些方法在处理数据上可能会有一定程度的误差;

(3)模型的初始阶段假设了工龄和学历的影响较大,这样未免带有一定的主观因素;

2、改进方向

模型中只考虑了工龄性别等几个因素对工资的影响实际上,影响工资的因素可能有很多,怎样去对待企业中的“特殊族”是否需要制定专门的政策对他们倾斜要结合企业的实际情况。由于影响的因素很多,并且不同的因素本身就就一定的差异性,如影响因素是连续变量还是离散变量,是随机的还是确定的等等。影响因素之多加上很多的未知性,考虑往多项式回归的改进。这样可以更好的将每一个影响因素对工资的影响区分开来,相比多元回归更科学合理。还可以在模型的计算求解中利用专业的统计软件对每一项进行单一统计分析,考察每个因素与工资的某种数学关系,综合各个因素建立更好的模型。

七、参考文献

[1] 扬启帆,何勇,谈之奕,杭州:数学建模竞赛-浙江大学学生获奖论文点评(1999-2004) ,浙江大学出版社,2006。

[2] 姜启源,谢金星,叶俊,数学模型(第三版),北京:高等教育出版社,2009。 [3] 韩中庚,数学建模方法及其应用,北京:高等教育出版社,2006。 [4] 赵东方,数学模型与计算,北京:科学出版社,2007。 [5] 宋来忠,王志明,北京:科学出版社,2005。

19

附表(2):

20

21


相关文章

  • 对边际生产力理论的探讨
  • 对边际生产力理论的探讨 一.边际生产力理论的局限性 边际生产力理论是新古典经济理论的基石.边际生产力理论是用于阐明在生产中相互合作的各种生产要素或资源所得到的报酬的一种方法.通常情况,当其他要素数量不变,而单位某种生产要素离开(或加入)生产 ...查看


  • 投入产出分析
  • 投入产出分析:在一定的经济理论指导下,利用投入产出表和相应的投入产出模型,对各种经济活动的投入产出关系所进行的经济分析和预测. 投入:是指生产(包括货物生产与服务生产)过程中对各种生产要素的消耗与使用,包括对原材料等物质产品的使用.对劳动力 ...查看


  • 劳动经济学复习资料 1
  • 劳动经济学 一章 * 1.谈谈你对劳动经济学的研究对象的理解 (一)劳动经济学家对劳动经济学研究对象存在着几种不同的表述. 一种定义是强调劳动经济学涉及人的行为的特征.如1931年,朱通九在所著的<劳动经济>一书中认为,劳动经济 ...查看


  • 我国城乡居民人均收入占GDP比重的影响因素分析
  • 作者:陈国强罗楚亮 北京工商大学学报:社会科学版 2016年03期 中图分类号:F126.2 文献标志码:A 文章编号:1009-6116(2015)05-0116-11 doi:10.16299/j.1009-6116.2015.05.0 ...查看


  • 专业化产业集聚_要素流动与区域工业化_克鲁格曼中心_外围模型新发展
  • 第33卷第2期 2007年2月财经研究 JournalofFinanceandEconomicsVol.33No.2 Feb.2007 专业化产业集聚.要素流动与区域工业化 )))克鲁格曼中心)外围模型新发展 何雄浪 (宜宾学院法学与公共管 ...查看


  • 财务管理综合实训报告
  • 财务管理综合实训报告 学 院 管 理 学 院 专业班级07级财务管理(6)班 学 号 学生姓名___范 彩 芳__________ 指导教师 许梅英 张军波 李泽平 实训地点 实验室D503 D3O3 2009年12月 1 目录 一 前言- ...查看


  • 宏观名词解释
  • 名词解释 第一章 宏观经济学:也叫做总量经济学, 以整个国民经济的经济行为作为研究对象,涉及的内容是 整个社会的价格水平, 总产量, 就业水平和其他经济总量的决定. GDP :国内生产总值,是指一定时期内(通常是一年)一国境内所有产出的全部 ...查看


  • [Krugman新国际贸易理论]评介
  • <管理世界>(月刊) 2002年第4期 <克鲁格曼国际贸易新理论>评介 宣晓伟 国际贸易成为近20年来最为敏感和热门的话题之 一, 一方面是因为不断扩大的国际贸易在社会经济中扮演越来越重要的角色, 对人们的经济生活直 ...查看


  • 行政垄断行业的生产效率分析
  • 作者:王会宗 山西财经大学学报 2009年07期 [中图分类号]F532;F224.0 [文献标识码]A [文章编号]1007-9556(2009)04-0053-06 作为我国交通运输业的骨干,铁路运输业一直被誉为国民经济的大动脉,其生产 ...查看


热门内容