通话数据分析(数学建模)

A 题 通话数据分析

摘要: 概率统计知识与我们的实际生活息息相关。由于客观事物内部规律的

复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,因此我们需要在大量的数据基础上,基于对数据的统计分析建立合乎机理规律的模型,来解决日常生活中的一些实际问题。本论文将利用概率统计知识来解决对通话数据的分析问题从而对用户进行分类,推出新业务,改建基站位置。

首先,对于问题一针对用户通话记录数据进行分类,对用户在十天内的通话时长及通话次数做了统计并对其进行相关性分析,然后对主叫者通话时长建立了正态分布的概率模型,并 “3σ” 原则将用户进行分类。

问题二与问题一承上启下,对用户及用户通话时长采用正态分布建立模型分析,据此挑选适合用户群体,并提出类似“打一返一”的优惠政策,另外,对基站的使用情况进行统计,将用户根据区域进行划分,提出“局域网”内的优惠政策,两种方案分析对象不同,却都是以提高公司利益扩展客源为目的提出的。 模型三的建立首先时将基站依据用户在十天内对每个基站的使用次数及基站的使用时间分别做出统计模型,对每个基站使用率及分布地域分析,由此考虑基站建设的合理与否给出优化建议。我们主要用Matlab 处理本问题的相关数据。 关键词:概率统计模型 正态分布 3σ原则 基站利用率 线性回归

残差分析 参数估计

一、 问题重述及要求:

(一) 问题背景

通信技术的不断发展拉近了人与人之间的距离。电话作为主要的通信工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。

如何利用现有的通话记录数据进行概括分析,以便作出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。 (二)问题提出

附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。

1. 请根据这些通话记录信息建立数学模型以对用户分类。

2. 如果需要推出一款新的通信业务,如何合理选择部分用户作为首选推广人群。说明你的理由,并撰写一份不超过两页的给公司经理的建议。

3. 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。

二、模型基本假设:

1、被调查的三百用户可以反映本地区的总体情况;

2、用户在此十天之内的通话记录,可以反映用户平时的通话记录情况; 3、用户的通话时长与移动公司的利益成正相关; 4、不同地域的基站的建站成本和覆盖范围一样;

5、调查地区以图中栅格进行划分,将面积接近一个栅格面积的相邻区域当作整体,其它占整个栅格面积的区域单独作为一个整体。

三、符号变量及说明:

i=1,2,3„300---------代表用户编号;

j=1,2,3„6221--------代表300个用户十天之内打的6221个电话按时间排序后对应的序号;

k=1,2,3„30------------代表30个基站;

a(j)=1,2,3„300---------代表第j 次电话对应的用户编号; b(j)---------代表第j 次电话的电话时长; s(i)-----------代表第i 个用户通话总次数; t(i) ---------代表第i 个用户通话总时长;

三、 模型的建立及求解:

1)、问题一模型的建立及求解:

1、建立算法对用户通话时长及次数统计:

对通话次数及通话时长作线性回归分析可得:

由y =β0+β1x +ε确定的模型为一元线性回归模型, 记为

利用Matlab 处理数据可得 b = 181.9923

bint = 180.8284 183.1561

从上图可知,用户通话时长与通话次数近似成正比。因此,下面只对通话时长进行分析。我们可以根据通话时长对用户进行分类。对于时间区域的确定,从如下模型得出:

1) 首先对不同时长段用户进行统计,并作图;

首先对主叫者通话数据进行正态分布估计,由图可知图形显示出直线性形态,所以主叫者通话总时长数据来自于正态分布,这时因为而其它概率分布函数显示出曲线形态.

由图可知,不同通话时长段内人数分布总体呈正态分布。据图可以估计出其概率密度图。

3.5

-4

3

2.5

2

1.5

1

0.5

[***********][***********]010000

根据正态分布的特征属性提示:68%的观察对象落在均数±1标准差 之内。在均数±1. 96倍标准差内含有95%的观察值。换句话说,在正态分布中的,观察对象值在均数±2倍标准差之外的频数低于5%。为了研究和讨论的方便,我们把-σ至σ之间的区域称为基区(占60%强以上),-σ至-2、58σ及以下之间的区域称为负区(占20%强以上),σ至2、58σ及以上之间的区域称为正区(占20%强以上)。为了需要也可以更细致的划分区域。联系到黄金分割、20/80法则,我们从数字上可以看到他们之间的惊人相似。当然也可以更抽象的依据定性划分主区、负区、正区,但定量关系应保持基本不变,即60%,20%,20%的基本比例。所以基于此题,我们可以根据以上准则将三百个用户人数分成60;180;60三部分。相应的可以确定时间段为0——2600;2600——4900;4900——7000,因此,可由时间段对用户分类,即:

2)、问题二模型的建立及求解:

10天主叫累计通话时长

12755

用户编号

[**************]9

2000

3792.5

4000

累计通话时长

[1**********]00

方案一:根据模型一,可知用户按时间段分为三类。为了发展新客户稳

定已有客户优惠老客户,由上图分析,每人每天通话时间平均为370分钟,因此我们可以根据时间累积量采取优惠政策,例如 超过2600分钟的用户每次打电话时实行“打十(分钟)返十(分钟)”,超过4900分钟的实行“打二十(分钟)返二十(分钟)”,以此可以根据总人群类推,打得越多送的越多。这样不仅加长了总体通信时间,给公司带来了利益,同时也吸引了大批客户。另外我们可以发现用户通话时长集中在2600——4900分钟,因此可以将这个区域内的人群作为首选推广人群。

方案二:通过统计不同时长内的基站累计个数,用matlab 作图将时长大

致分为三段。再根据数据确定出不同时长段内的具体基站,由上述表格发现大部分基站使用时间是在40000分钟内。通话时间长的基站主要分布在中心城市以及周边相对集中地区。因此,我们可以以中心城市为区域的一定范围内推出“局域网”政策,例如在该范围内的用户每月可以拨打比正常收费情况下更长的时间。以此来吸引更多的客户加长通信时间,从而扩宽局域网的范围使他们享受到优惠政策达到双赢目的。

2468101214x 10

4

3)、问题三模型的建立及求解

通信的性能可以通过基站覆盖率来表现,以此我们将该调查地区以图中栅格进行划分,将面积接近一个栅格面积的相邻区域当作整体,其它占整个栅格面积的区域单独作为一个整体。(假设一个栅格面积为单位1)统计表格如下:

占地面通话次

区域 基站 积 数 占地面积/通话次数

1 1 30 1 863 863 2 2 1 51 51 3 3 4 1 111 111 4 5 6 1 112 112 5 7 1 66 66 6 8 1 71 71 7 9 1 147 147 8 10 1 135 135

9 11 28 29 10 12 13 14 11 15 12 16 13 17 14 18 15 19 16 20 17 21 1 3 1 1 1 1 1 1 1 2027 420 374 250 134 104 98 150 140 2027 140 374 250 134 104 98 150 140 18 22 19 23 24 25 20 26 21 27

占地面区域

基站 积

1 1 30 1 2 2 1 3 3 4 1 4 5 6 1 5 7 1 6 8 1 7 9 1 8 10 1 9 11 28 29 1 10 12 13 14

3 11 15

1 12 16 1 13 17 1 14 18 1 15 19 1 16 20 1 17 21 1 18 22

1 23 24 19 25

3 20 26 1 21

27

1

1 445 445 3 387 129 1 29 29 1 107 107

通话时通话时长/占地面长 积 159298 159298 9606 9606 20584 20584 19297 19297 12126 12126 13080 13080 26969 26969 24154 24154 370025 370025 74826 24942 68799 68799 45708 45708 24183 24183 18222 18222 17035 17035 44954 44954 25502 25502 82087 82087 69889 23296 5517 5517 17890

17890

由以上统计数据绘图如下:

对基站通话次数及时长统计作图

[1**********]0

400300

200

1000

29

11

30

28

22

15

13

16

1

20

9

21

25

10

17

23

24

3

5

[**************]26

对基站的通话次数及通话时长作线性回归分析可得:

我们可从通话次数与通话时长图可知;基站通话次数与时长成正比

由单位基站时长和次数通话率图可知:无论是从通话次数还是通话时长考虑,基站的使用情况并不均衡,对大部分基站来说都能在一个相对平衡的水平发挥作用。对1,11,15,22这样的中心城市,基站的通话率较高因而基站的负载比较高。所以现有的通讯设施存在部分不合理。又因为这些中心城市中15,22的使用率相对一致。而基站1和11处的通话率则很明显的偏离于平均水平,尤其是基站11,因此,在该处应相应的多建基站进行“分流”使基站的利用率处于相对平衡的状态。而从各个基站通话时长和次数图可以看出每个基站的通话时长和通话次数成正相关,而1的通话时长和次数明显不具有线性关系。猜测其原因可能是统计方面出现误差,但不影响整体的数据分析。

四、模型的优缺点及改进:

针对此次建模的三个问题,我们都一一建立了不同的模型。对于问题一,分类有很多种,我们根据用户的通话时长和次数进行分析得出二者呈正相关,因此简化模型只把通话时长作为对用户分类的主要指标。通过matlab 作图将数据进行分类统计,通过图形直观的建立起正态分布模型并采用“3σ”原则对用户进行分类。本题分类原则较为科学,对数据的分析也较为合理,结论的得出有一定的参考意义。

对于问题二,我们应该从公司盈利角度出发同时又给顾客带来优惠为目的建立模型。所以模型的建立应该从两方面考虑,一是承接第一问从用户角度出发,按时长提出优惠政策,采取不同时间段优惠不同来激发更多潜在客户。二是以基站为出发点,通过对基站使用情况统计,将用户划分成局域网,对于局域网内的人实行优惠,从而通过扩宽局域网范围提高公司收益。 本题的思路较为丰富,但在一定程度上主观意识较强,因而只分析了数据背后可以提供哪些政策却缺乏相关的理论依据,对于具体政策提出的原因也没有给予准确意见。

对于问题三,我们认为一个基站建设的合理与否,需要从通信的覆盖率,一个地区的基站的密集度及基站的承受通信能力等方面考虑。对密集度定义产生的模型能很好的放映通信设施建设是否合理。但由于是人为将区域进行划分,并且在面积估计方面为方便起见均设成单位一,缺乏一定实际意义,所以定量的分析方面做得不是很精确。

五、参考文献:

【1】赵静,但琦,严尚安,杨秀文,《数学建模与数学实验》,高等教育出版社,2008年:

【2】石博强,赵金,《MATLAB 数学计算与工程分析范例教程》,中国铁道出版社,2005牛: 【3】姜启源,《数学模型》,高等教育出版社2000年: 【4】沈恒范 《概率论与数理统计教程》,高等教育出版社,2006年:

六、附录:

部分程序:

(1)用户通话时长统计直方图 首先将“通话1.Xls ”导入Matlab

建立 data double 文件 1)用户通话时长统计直方图

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s %导出每个主叫者通话总时长 d=zeros(14,1); for i=1:300 for n=1:14

if ((n-1)*500

d %对主叫者通话总时长统计排序 r=500:500:7000

bar(r,d) %画频率直方图

2)主叫者正态分布均值方差及概率密度函数程序计算 对主叫者进行正态分布估计 a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s;

normplot(s) a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i); s(i)=s(i)+b(j); end end end

s;

e=mean(s); %求平均值 d=std(s); %求期望

[m,v]=normstat(e,d); %对统计量估计正态分布函数 y=normpdf(x,e,d);

plot(x,y) %画正态分布函数图象 m =

3.7757e+003 v =

1.6010e+006

(3)对主叫者通话时长及次数作线性回归分析: a=(data(1:6221,2)); %调入主叫者数据

b=(data(1:6221,5)); %调入主叫者通话时长

s=zeros(300,1); n=zeros(300,1); for i=1:300 for j=1:6221; if (a(j)==i);

s(i)=s(i)+b(j);

n(i)=n(i)+1; end end end s; n;

plot(n,s,'o') %画主叫者通话次数及通话时长散点图 [b, bint,r,rint,stats]=regress(s,n) %对通话时长及次数作线性回归分析 b; %比例系数 bint; %置信区间 stats; %检验回归模型的统计量三个数值:相关系数r2、

F 值、与F 对应的概率p

hold on

x=(0:1:40); y=181.9*x;

plot(x,y,'r') %画图通话次数与通话时长线性图 4)对各基站通话时长及通话次数统计:

a=(data(1:6221,6)); %调入数据

b=(data(1:6221,5)) %调入通话时长 s=zeros(30,1); n=zeros(30,1); for i=1:30 for j=1:6221; if (a(j)==i); s(i)=s(i)+b(j); n(i)=n(i)+1; end end end

s %输出基站通话总时长 n %输出基站通话总次数 plot(n,s,'o')

[b, bint,r,rint,stats]=regress(s,n) %对基站通话时长及次数作线性回归析 b bint stats

rsoplot(r,rint) %对基站通话次数及时长做残差分析图 5)对主叫者通话时长做进行假设性检验: 正态总体的参数估计:

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end s

[muhat,sigmahat,muci,sigmaci] = normfit(s)

A 题 通话数据分析

摘要: 概率统计知识与我们的实际生活息息相关。由于客观事物内部规律的

复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,因此我们需要在大量的数据基础上,基于对数据的统计分析建立合乎机理规律的模型,来解决日常生活中的一些实际问题。本论文将利用概率统计知识来解决对通话数据的分析问题从而对用户进行分类,推出新业务,改建基站位置。

首先,对于问题一针对用户通话记录数据进行分类,对用户在十天内的通话时长及通话次数做了统计并对其进行相关性分析,然后对主叫者通话时长建立了正态分布的概率模型,并 “3σ” 原则将用户进行分类。

问题二与问题一承上启下,对用户及用户通话时长采用正态分布建立模型分析,据此挑选适合用户群体,并提出类似“打一返一”的优惠政策,另外,对基站的使用情况进行统计,将用户根据区域进行划分,提出“局域网”内的优惠政策,两种方案分析对象不同,却都是以提高公司利益扩展客源为目的提出的。 模型三的建立首先时将基站依据用户在十天内对每个基站的使用次数及基站的使用时间分别做出统计模型,对每个基站使用率及分布地域分析,由此考虑基站建设的合理与否给出优化建议。我们主要用Matlab 处理本问题的相关数据。 关键词:概率统计模型 正态分布 3σ原则 基站利用率 线性回归

残差分析 参数估计

一、 问题重述及要求:

(一) 问题背景

通信技术的不断发展拉近了人与人之间的距离。电话作为主要的通信工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。

如何利用现有的通话记录数据进行概括分析,以便作出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。 (二)问题提出

附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。

1. 请根据这些通话记录信息建立数学模型以对用户分类。

2. 如果需要推出一款新的通信业务,如何合理选择部分用户作为首选推广人群。说明你的理由,并撰写一份不超过两页的给公司经理的建议。

3. 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。

二、模型基本假设:

1、被调查的三百用户可以反映本地区的总体情况;

2、用户在此十天之内的通话记录,可以反映用户平时的通话记录情况; 3、用户的通话时长与移动公司的利益成正相关; 4、不同地域的基站的建站成本和覆盖范围一样;

5、调查地区以图中栅格进行划分,将面积接近一个栅格面积的相邻区域当作整体,其它占整个栅格面积的区域单独作为一个整体。

三、符号变量及说明:

i=1,2,3„300---------代表用户编号;

j=1,2,3„6221--------代表300个用户十天之内打的6221个电话按时间排序后对应的序号;

k=1,2,3„30------------代表30个基站;

a(j)=1,2,3„300---------代表第j 次电话对应的用户编号; b(j)---------代表第j 次电话的电话时长; s(i)-----------代表第i 个用户通话总次数; t(i) ---------代表第i 个用户通话总时长;

三、 模型的建立及求解:

1)、问题一模型的建立及求解:

1、建立算法对用户通话时长及次数统计:

对通话次数及通话时长作线性回归分析可得:

由y =β0+β1x +ε确定的模型为一元线性回归模型, 记为

利用Matlab 处理数据可得 b = 181.9923

bint = 180.8284 183.1561

从上图可知,用户通话时长与通话次数近似成正比。因此,下面只对通话时长进行分析。我们可以根据通话时长对用户进行分类。对于时间区域的确定,从如下模型得出:

1) 首先对不同时长段用户进行统计,并作图;

首先对主叫者通话数据进行正态分布估计,由图可知图形显示出直线性形态,所以主叫者通话总时长数据来自于正态分布,这时因为而其它概率分布函数显示出曲线形态.

由图可知,不同通话时长段内人数分布总体呈正态分布。据图可以估计出其概率密度图。

3.5

-4

3

2.5

2

1.5

1

0.5

[***********][***********]010000

根据正态分布的特征属性提示:68%的观察对象落在均数±1标准差 之内。在均数±1. 96倍标准差内含有95%的观察值。换句话说,在正态分布中的,观察对象值在均数±2倍标准差之外的频数低于5%。为了研究和讨论的方便,我们把-σ至σ之间的区域称为基区(占60%强以上),-σ至-2、58σ及以下之间的区域称为负区(占20%强以上),σ至2、58σ及以上之间的区域称为正区(占20%强以上)。为了需要也可以更细致的划分区域。联系到黄金分割、20/80法则,我们从数字上可以看到他们之间的惊人相似。当然也可以更抽象的依据定性划分主区、负区、正区,但定量关系应保持基本不变,即60%,20%,20%的基本比例。所以基于此题,我们可以根据以上准则将三百个用户人数分成60;180;60三部分。相应的可以确定时间段为0——2600;2600——4900;4900——7000,因此,可由时间段对用户分类,即:

2)、问题二模型的建立及求解:

10天主叫累计通话时长

12755

用户编号

[**************]9

2000

3792.5

4000

累计通话时长

[1**********]00

方案一:根据模型一,可知用户按时间段分为三类。为了发展新客户稳

定已有客户优惠老客户,由上图分析,每人每天通话时间平均为370分钟,因此我们可以根据时间累积量采取优惠政策,例如 超过2600分钟的用户每次打电话时实行“打十(分钟)返十(分钟)”,超过4900分钟的实行“打二十(分钟)返二十(分钟)”,以此可以根据总人群类推,打得越多送的越多。这样不仅加长了总体通信时间,给公司带来了利益,同时也吸引了大批客户。另外我们可以发现用户通话时长集中在2600——4900分钟,因此可以将这个区域内的人群作为首选推广人群。

方案二:通过统计不同时长内的基站累计个数,用matlab 作图将时长大

致分为三段。再根据数据确定出不同时长段内的具体基站,由上述表格发现大部分基站使用时间是在40000分钟内。通话时间长的基站主要分布在中心城市以及周边相对集中地区。因此,我们可以以中心城市为区域的一定范围内推出“局域网”政策,例如在该范围内的用户每月可以拨打比正常收费情况下更长的时间。以此来吸引更多的客户加长通信时间,从而扩宽局域网的范围使他们享受到优惠政策达到双赢目的。

2468101214x 10

4

3)、问题三模型的建立及求解

通信的性能可以通过基站覆盖率来表现,以此我们将该调查地区以图中栅格进行划分,将面积接近一个栅格面积的相邻区域当作整体,其它占整个栅格面积的区域单独作为一个整体。(假设一个栅格面积为单位1)统计表格如下:

占地面通话次

区域 基站 积 数 占地面积/通话次数

1 1 30 1 863 863 2 2 1 51 51 3 3 4 1 111 111 4 5 6 1 112 112 5 7 1 66 66 6 8 1 71 71 7 9 1 147 147 8 10 1 135 135

9 11 28 29 10 12 13 14 11 15 12 16 13 17 14 18 15 19 16 20 17 21 1 3 1 1 1 1 1 1 1 2027 420 374 250 134 104 98 150 140 2027 140 374 250 134 104 98 150 140 18 22 19 23 24 25 20 26 21 27

占地面区域

基站 积

1 1 30 1 2 2 1 3 3 4 1 4 5 6 1 5 7 1 6 8 1 7 9 1 8 10 1 9 11 28 29 1 10 12 13 14

3 11 15

1 12 16 1 13 17 1 14 18 1 15 19 1 16 20 1 17 21 1 18 22

1 23 24 19 25

3 20 26 1 21

27

1

1 445 445 3 387 129 1 29 29 1 107 107

通话时通话时长/占地面长 积 159298 159298 9606 9606 20584 20584 19297 19297 12126 12126 13080 13080 26969 26969 24154 24154 370025 370025 74826 24942 68799 68799 45708 45708 24183 24183 18222 18222 17035 17035 44954 44954 25502 25502 82087 82087 69889 23296 5517 5517 17890

17890

由以上统计数据绘图如下:

对基站通话次数及时长统计作图

[1**********]0

400300

200

1000

29

11

30

28

22

15

13

16

1

20

9

21

25

10

17

23

24

3

5

[**************]26

对基站的通话次数及通话时长作线性回归分析可得:

我们可从通话次数与通话时长图可知;基站通话次数与时长成正比

由单位基站时长和次数通话率图可知:无论是从通话次数还是通话时长考虑,基站的使用情况并不均衡,对大部分基站来说都能在一个相对平衡的水平发挥作用。对1,11,15,22这样的中心城市,基站的通话率较高因而基站的负载比较高。所以现有的通讯设施存在部分不合理。又因为这些中心城市中15,22的使用率相对一致。而基站1和11处的通话率则很明显的偏离于平均水平,尤其是基站11,因此,在该处应相应的多建基站进行“分流”使基站的利用率处于相对平衡的状态。而从各个基站通话时长和次数图可以看出每个基站的通话时长和通话次数成正相关,而1的通话时长和次数明显不具有线性关系。猜测其原因可能是统计方面出现误差,但不影响整体的数据分析。

四、模型的优缺点及改进:

针对此次建模的三个问题,我们都一一建立了不同的模型。对于问题一,分类有很多种,我们根据用户的通话时长和次数进行分析得出二者呈正相关,因此简化模型只把通话时长作为对用户分类的主要指标。通过matlab 作图将数据进行分类统计,通过图形直观的建立起正态分布模型并采用“3σ”原则对用户进行分类。本题分类原则较为科学,对数据的分析也较为合理,结论的得出有一定的参考意义。

对于问题二,我们应该从公司盈利角度出发同时又给顾客带来优惠为目的建立模型。所以模型的建立应该从两方面考虑,一是承接第一问从用户角度出发,按时长提出优惠政策,采取不同时间段优惠不同来激发更多潜在客户。二是以基站为出发点,通过对基站使用情况统计,将用户划分成局域网,对于局域网内的人实行优惠,从而通过扩宽局域网范围提高公司收益。 本题的思路较为丰富,但在一定程度上主观意识较强,因而只分析了数据背后可以提供哪些政策却缺乏相关的理论依据,对于具体政策提出的原因也没有给予准确意见。

对于问题三,我们认为一个基站建设的合理与否,需要从通信的覆盖率,一个地区的基站的密集度及基站的承受通信能力等方面考虑。对密集度定义产生的模型能很好的放映通信设施建设是否合理。但由于是人为将区域进行划分,并且在面积估计方面为方便起见均设成单位一,缺乏一定实际意义,所以定量的分析方面做得不是很精确。

五、参考文献:

【1】赵静,但琦,严尚安,杨秀文,《数学建模与数学实验》,高等教育出版社,2008年:

【2】石博强,赵金,《MATLAB 数学计算与工程分析范例教程》,中国铁道出版社,2005牛: 【3】姜启源,《数学模型》,高等教育出版社2000年: 【4】沈恒范 《概率论与数理统计教程》,高等教育出版社,2006年:

六、附录:

部分程序:

(1)用户通话时长统计直方图 首先将“通话1.Xls ”导入Matlab

建立 data double 文件 1)用户通话时长统计直方图

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s %导出每个主叫者通话总时长 d=zeros(14,1); for i=1:300 for n=1:14

if ((n-1)*500

d %对主叫者通话总时长统计排序 r=500:500:7000

bar(r,d) %画频率直方图

2)主叫者正态分布均值方差及概率密度函数程序计算 对主叫者进行正态分布估计 a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s;

normplot(s) a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i); s(i)=s(i)+b(j); end end end

s;

e=mean(s); %求平均值 d=std(s); %求期望

[m,v]=normstat(e,d); %对统计量估计正态分布函数 y=normpdf(x,e,d);

plot(x,y) %画正态分布函数图象 m =

3.7757e+003 v =

1.6010e+006

(3)对主叫者通话时长及次数作线性回归分析: a=(data(1:6221,2)); %调入主叫者数据

b=(data(1:6221,5)); %调入主叫者通话时长

s=zeros(300,1); n=zeros(300,1); for i=1:300 for j=1:6221; if (a(j)==i);

s(i)=s(i)+b(j);

n(i)=n(i)+1; end end end s; n;

plot(n,s,'o') %画主叫者通话次数及通话时长散点图 [b, bint,r,rint,stats]=regress(s,n) %对通话时长及次数作线性回归分析 b; %比例系数 bint; %置信区间 stats; %检验回归模型的统计量三个数值:相关系数r2、

F 值、与F 对应的概率p

hold on

x=(0:1:40); y=181.9*x;

plot(x,y,'r') %画图通话次数与通话时长线性图 4)对各基站通话时长及通话次数统计:

a=(data(1:6221,6)); %调入数据

b=(data(1:6221,5)) %调入通话时长 s=zeros(30,1); n=zeros(30,1); for i=1:30 for j=1:6221; if (a(j)==i); s(i)=s(i)+b(j); n(i)=n(i)+1; end end end

s %输出基站通话总时长 n %输出基站通话总次数 plot(n,s,'o')

[b, bint,r,rint,stats]=regress(s,n) %对基站通话时长及次数作线性回归析 b bint stats

rsoplot(r,rint) %对基站通话次数及时长做残差分析图 5)对主叫者通话时长做进行假设性检验: 正态总体的参数估计:

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end s

[muhat,sigmahat,muci,sigmaci] = normfit(s)


相关文章

  • 用数学模型思想方法解决实际问题
  • 用数学模型思想方法解决 初中数学实际应用问题 关键词: 数学模型 难点 策略 随着新课改的进步落实,素质教育全方位.深层次推进,数学学科要求学生具有较高的数学素质.数学意识和较强的数学应用能力.而数学实际应用问题具有这种考查功能.它不仅具有 ...查看


  • 基于通讯数据的社群分类与应用数学建模
  • 基于通讯数据的社群聚类 摘要 大数据时代的来临使得许多不可能成为了现实.数据分析和数据挖掘技术成 功地在多个重大领域取得了巨大成功.现已有部分人群通讯数据,对人群进行社群分类和相关识别. 针对问题一, 本文运用改进的K -MEANS 算法对 ...查看


  • 浅谈数学建模在能力培养中的作用
  • 浅谈数学建模在能力培养中的作用 09物本 奚修阳 [摘要]本文主要针对什么是数学建模.数学教学中开展数学建模教学的意义以及培养学生数学建模能力的方法这三个问题进行了探讨.详尽阐述了数学建模教学对于学生创新能力.发现问题能力.综合应用知识能力 ...查看


  • 智育培养目标
  • 智育培养目标 东马坊中心小学 语 文 一.总目标 1.在语文学习过程中,培养爱国主义感情.社会主义道德品质,逐步形成积极的人生态度和正确的价值观,提高文化品位和审美情趣. 2.认识中华文化的丰厚博大,吸收民族文化智慧.关心当代文化生活,尊重 ...查看


  • 沪科版八年级数学上册:12.2.4 分段函数教案
  • 第4课时 分段函数 定义:一般地,如果有实数a 1,a 2,a 3--k 1,k, 2k 3--b 1,b 2, b 3--且a 1≤a 2≤a 3--函数Y 与自变量X 之间存在 k 1x+b1 x ≤a 1 y = k 2x+b2 a ...查看


  • 2015中考精英数学(呼市)专题二
  • 专题二 图表信息问题 强化突破 1.(2014·随州) 某通讯公司提供了两种移动电话收费方式:方式1,收月基本费20元,再以每分钟0.1元的价格按通话时间计费:方式2,收月基本费20元,送80分钟通话时间,超过80分钟的部分,以每分钟0.1 ...查看


  • 必修三数学 算法的基本思想 教案
  • 必修三数学 算法的基本思想 教案 三维目标 1.正确理解算法的概念,掌握算法的基本特点. 2.通过例题教学,使学生体会设计算法的基本思路. 3.通过有趣的实例使学生了解算法这一概念的同时,激发学生学习数学的兴趣. 重点难点 教学重点:算法的 ...查看


  • 数学奥林匹克
  • 数学奥林匹克 第一讲 有理数的巧算 有理数运算是中学数学中一切运算的基础.它要求同学们在理解有理数的有关概 念.法则的基础上,能根据法则.公式等正确.迅速地进行运算.不仅如此,还 要善于根据题目条件,将推理与计算相结合,灵活巧妙地选择合理的 ...查看


  • 关教师的粉笔字写得好不好
  • 关教师的粉笔字写得好不好,小黑板上见分晓.12月28日,合肥六十三中学举办了"教师 粉笔字比赛". 粉笔字作为教师的一项基本功,曾经是一个教师综合素质的重要标志,但是,随着现代 教育技术的飞速发展,采用多媒体设备上课的教 ...查看


热门内容