通话数据分析(数学建模)

A 题通话数据分析

摘要：概率统计知识与我们的实际生活息息相关。由于客观事物内部规律的

复杂性及人们认识程度的限制，无法分析实际对象内在的因果关系，因此我们需要在大量的数据基础上，基于对数据的统计分析建立合乎机理规律的模型，来解决日常生活中的一些实际问题。本论文将利用概率统计知识来解决对通话数据的分析问题从而对用户进行分类，推出新业务，改建基站位置。

首先，对于问题一针对用户通话记录数据进行分类，对用户在十天内的通话时长及通话次数做了统计并对其进行相关性分析，然后对主叫者通话时长建立了正态分布的概率模型，并 “3σ” 原则将用户进行分类。

问题二与问题一承上启下，对用户及用户通话时长采用正态分布建立模型分析，据此挑选适合用户群体，并提出类似“打一返一”的优惠政策，另外，对基站的使用情况进行统计，将用户根据区域进行划分，提出“局域网”内的优惠政策，两种方案分析对象不同，却都是以提高公司利益扩展客源为目的提出的。模型三的建立首先时将基站依据用户在十天内对每个基站的使用次数及基站的使用时间分别做出统计模型，对每个基站使用率及分布地域分析，由此考虑基站建设的合理与否给出优化建议。我们主要用Matlab 处理本问题的相关数据。关键词：概率统计模型正态分布 3σ原则基站利用率线性回归

残差分析参数估计

一、问题重述及要求：

(一) 问题背景

通信技术的不断发展拉近了人与人之间的距离。电话作为主要的通信工具之一悄无声息地将我们联系在一起，形成一个巨大的社交网络。这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。

如何利用现有的通话记录数据进行概括分析，以便作出合理的决策，进而改善通信设施、拓展新的通信业务，依然是很多通信公司所面临的一个难题。（二）问题提出

附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录，试完成以下问题。

1. 请根据这些通话记录信息建立数学模型以对用户分类。

2. 如果需要推出一款新的通信业务，如何合理选择部分用户作为首选推广人群。说明你的理由，并撰写一份不超过两页的给公司经理的建议。

3. 该地现有的通信设施（如基站等）建设情况是否合理。如需改进，请给出合理的建议。

二、模型基本假设：

1、被调查的三百用户可以反映本地区的总体情况；

2、用户在此十天之内的通话记录，可以反映用户平时的通话记录情况； 3、用户的通话时长与移动公司的利益成正相关； 4、不同地域的基站的建站成本和覆盖范围一样；

5、调查地区以图中栅格进行划分，将面积接近一个栅格面积的相邻区域当作整体，其它占整个栅格面积的区域单独作为一个整体。

三、符号变量及说明：

i=1,2,3„300---------代表用户编号；

j=1,2,3„6221--------代表300个用户十天之内打的6221个电话按时间排序后对应的序号；

k=1，2，3„30------------代表30个基站；

a(j)=1,2,3„300---------代表第j 次电话对应的用户编号； b(j)---------代表第j 次电话的电话时长； s(i)-----------代表第i 个用户通话总次数； t(i) ---------代表第i 个用户通话总时长；

三、模型的建立及求解：

1）、问题一模型的建立及求解：

1、建立算法对用户通话时长及次数统计:

对通话次数及通话时长作线性回归分析可得：

由y =β0+β1x +ε确定的模型为一元线性回归模型，记为

利用Matlab 处理数据可得 b = 181.9923

bint = 180.8284 183.1561

从上图可知，用户通话时长与通话次数近似成正比。因此，下面只对通话时长进行分析。我们可以根据通话时长对用户进行分类。对于时间区域的确定，从如下模型得出：

1）首先对不同时长段用户进行统计，并作图；

首先对主叫者通话数据进行正态分布估计，由图可知图形显示出直线性形态，所以主叫者通话总时长数据来自于正态分布，这时因为而其它概率分布函数显示出曲线形态.

由图可知，不同通话时长段内人数分布总体呈正态分布。据图可以估计出其概率密度图。

3.5

-4

2.5

1.5

0.5

[***********][***********]010000

根据正态分布的特征属性提示：68%的观察对象落在均数±1标准差之内。在均数±1. 96倍标准差内含有95%的观察值。换句话说，在正态分布中的，观察对象值在均数±2倍标准差之外的频数低于5%。为了研究和讨论的方便，我们把-σ至σ之间的区域称为基区（占60%强以上），-σ至-2、58σ及以下之间的区域称为负区（占20%强以上），σ至2、58σ及以上之间的区域称为正区（占20%强以上）。为了需要也可以更细致的划分区域。联系到黄金分割、20/80法则，我们从数字上可以看到他们之间的惊人相似。当然也可以更抽象的依据定性划分主区、负区、正区，但定量关系应保持基本不变，即60%，20%，20%的基本比例。所以基于此题，我们可以根据以上准则将三百个用户人数分成60；180；60三部分。相应的可以确定时间段为0——2600；2600——4900；4900——7000，因此，可由时间段对用户分类，即：

2）、问题二模型的建立及求解：

10天主叫累计通话时长

12755

用户编号

[**************]9

2000

3792.5

4000

累计通话时长

[1**********]00

方案一：根据模型一，可知用户按时间段分为三类。为了发展新客户稳

定已有客户优惠老客户，由上图分析，每人每天通话时间平均为370分钟，因此我们可以根据时间累积量采取优惠政策，例如超过2600分钟的用户每次打电话时实行“打十（分钟）返十（分钟）”，超过4900分钟的实行“打二十（分钟）返二十（分钟）”，以此可以根据总人群类推，打得越多送的越多。这样不仅加长了总体通信时间，给公司带来了利益，同时也吸引了大批客户。另外我们可以发现用户通话时长集中在2600——4900分钟，因此可以将这个区域内的人群作为首选推广人群。

方案二：通过统计不同时长内的基站累计个数，用matlab 作图将时长大

致分为三段。再根据数据确定出不同时长段内的具体基站，由上述表格发现大部分基站使用时间是在40000分钟内。通话时间长的基站主要分布在中心城市以及周边相对集中地区。因此，我们可以以中心城市为区域的一定范围内推出“局域网”政策，例如在该范围内的用户每月可以拨打比正常收费情况下更长的时间。以此来吸引更多的客户加长通信时间，从而扩宽局域网的范围使他们享受到优惠政策达到双赢目的。

2468101214x 10

3）、问题三模型的建立及求解

通信的性能可以通过基站覆盖率来表现，以此我们将该调查地区以图中栅格进行划分，将面积接近一个栅格面积的相邻区域当作整体，其它占整个栅格面积的区域单独作为一个整体。（假设一个栅格面积为单位1）统计表格如下：

占地面通话次

区域基站积数占地面积/通话次数

1 1 30 1 863 863 2 2 1 51 51 3 3 4 1 111 111 4 5 6 1 112 112 5 7 1 66 66 6 8 1 71 71 7 9 1 147 147 8 10 1 135 135

9 11 28 29 10 12 13 14 11 15 12 16 13 17 14 18 15 19 16 20 17 21 1 3 1 1 1 1 1 1 1 2027 420 374 250 134 104 98 150 140 2027 140 374 250 134 104 98 150 140 18 22 19 23 24 25 20 26 21 27

占地面区域

基站积

1 1 30 1 2 2 1 3 3 4 1 4 5 6 1 5 7 1 6 8 1 7 9 1 8 10 1 9 11 28 29 1 10 12 13 14

3 11 15

1 12 16 1 13 17 1 14 18 1 15 19 1 16 20 1 17 21 1 18 22

1 23 24 19 25

3 20 26 1 21

1 445 445 3 387 129 1 29 29 1 107 107

通话时通话时长/占地面长积 159298 159298 9606 9606 20584 20584 19297 19297 12126 12126 13080 13080 26969 26969 24154 24154 370025 370025 74826 24942 68799 68799 45708 45708 24183 24183 18222 18222 17035 17035 44954 44954 25502 25502 82087 82087 69889 23296 5517 5517 17890

17890

由以上统计数据绘图如下：

对基站通话次数及时长统计作图

[1**********]0

400300

200

1000

[**************]26

对基站的通话次数及通话时长作线性回归分析可得：

我们可从通话次数与通话时长图可知；基站通话次数与时长成正比

由单位基站时长和次数通话率图可知：无论是从通话次数还是通话时长考虑，基站的使用情况并不均衡，对大部分基站来说都能在一个相对平衡的水平发挥作用。对1,11,15,22这样的中心城市，基站的通话率较高因而基站的负载比较高。所以现有的通讯设施存在部分不合理。又因为这些中心城市中15,22的使用率相对一致。而基站1和11处的通话率则很明显的偏离于平均水平，尤其是基站11，因此，在该处应相应的多建基站进行“分流”使基站的利用率处于相对平衡的状态。而从各个基站通话时长和次数图可以看出每个基站的通话时长和通话次数成正相关，而1的通话时长和次数明显不具有线性关系。猜测其原因可能是统计方面出现误差，但不影响整体的数据分析。

四、模型的优缺点及改进：

针对此次建模的三个问题，我们都一一建立了不同的模型。对于问题一，分类有很多种，我们根据用户的通话时长和次数进行分析得出二者呈正相关，因此简化模型只把通话时长作为对用户分类的主要指标。通过matlab 作图将数据进行分类统计，通过图形直观的建立起正态分布模型并采用“3σ”原则对用户进行分类。本题分类原则较为科学，对数据的分析也较为合理，结论的得出有一定的参考意义。

对于问题二，我们应该从公司盈利角度出发同时又给顾客带来优惠为目的建立模型。所以模型的建立应该从两方面考虑，一是承接第一问从用户角度出发，按时长提出优惠政策，采取不同时间段优惠不同来激发更多潜在客户。二是以基站为出发点，通过对基站使用情况统计，将用户划分成局域网，对于局域网内的人实行优惠，从而通过扩宽局域网范围提高公司收益。本题的思路较为丰富，但在一定程度上主观意识较强，因而只分析了数据背后可以提供哪些政策却缺乏相关的理论依据，对于具体政策提出的原因也没有给予准确意见。

对于问题三，我们认为一个基站建设的合理与否，需要从通信的覆盖率，一个地区的基站的密集度及基站的承受通信能力等方面考虑。对密集度定义产生的模型能很好的放映通信设施建设是否合理。但由于是人为将区域进行划分，并且在面积估计方面为方便起见均设成单位一，缺乏一定实际意义，所以定量的分析方面做得不是很精确。

五、参考文献：

【1】赵静，但琦，严尚安，杨秀文，《数学建模与数学实验》，高等教育出版社，2008年：

【2】石博强，赵金，《MATLAB 数学计算与工程分析范例教程》，中国铁道出版社，2005牛：【3】姜启源，《数学模型》，高等教育出版社2000年：【4】沈恒范《概率论与数理统计教程》，高等教育出版社，2006年：

六、附录：

部分程序：

（1）用户通话时长统计直方图首先将“通话1.Xls ”导入Matlab

建立 data double 文件 1）用户通话时长统计直方图

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s %导出每个主叫者通话总时长 d=zeros(14,1); for i=1:300 for n=1:14

if ((n-1)*500

d %对主叫者通话总时长统计排序 r=500:500:7000

bar(r,d) %画频率直方图

2）主叫者正态分布均值方差及概率密度函数程序计算对主叫者进行正态分布估计 a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

normplot(s) a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i); s(i)=s(i)+b(j); end end end

e=mean(s); %求平均值 d=std(s); %求期望

[m,v]=normstat(e,d); %对统计量估计正态分布函数 y=normpdf(x,e,d);

plot(x,y) %画正态分布函数图象 m =

3.7757e+003 v =

1.6010e+006

（3）对主叫者通话时长及次数作线性回归分析： a=(data(1:6221,2)); %调入主叫者数据

b=(data(1:6221,5)); %调入主叫者通话时长

s=zeros(300,1); n=zeros(300,1); for i=1:300 for j=1:6221; if (a(j)==i);

s(i)=s(i)+b(j);

n(i)=n(i)+1; end end end s; n;

plot(n,s,'o') %画主叫者通话次数及通话时长散点图 [b, bint,r,rint,stats]=regress(s,n) %对通话时长及次数作线性回归分析 b; %比例系数 bint; %置信区间 stats; %检验回归模型的统计量三个数值：相关系数r2、

F 值、与F 对应的概率p

hold on

x=(0:1:40); y=181.9*x;

plot(x,y,'r') %画图通话次数与通话时长线性图 4）对各基站通话时长及通话次数统计：

a=(data(1:6221,6)); %调入数据

b=(data(1:6221,5)) %调入通话时长 s=zeros(30,1); n=zeros(30,1); for i=1:30 for j=1:6221; if (a(j)==i); s(i)=s(i)+b(j); n(i)=n(i)+1; end end end

s %输出基站通话总时长 n %输出基站通话总次数 plot(n,s,'o')

[b, bint,r,rint,stats]=regress(s,n) %对基站通话时长及次数作线性回归析 b bint stats

rsoplot(r,rint) %对基站通话次数及时长做残差分析图 5）对主叫者通话时长做进行假设性检验：正态总体的参数估计：

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end s

[muhat,sigmahat,muci,sigmaci] = normfit(s)

A 题通话数据分析

摘要：概率统计知识与我们的实际生活息息相关。由于客观事物内部规律的

残差分析参数估计

一、问题重述及要求：

(一) 问题背景

附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录，试完成以下问题。

1. 请根据这些通话记录信息建立数学模型以对用户分类。

2. 如果需要推出一款新的通信业务，如何合理选择部分用户作为首选推广人群。说明你的理由，并撰写一份不超过两页的给公司经理的建议。

3. 该地现有的通信设施（如基站等）建设情况是否合理。如需改进，请给出合理的建议。

二、模型基本假设：

1、被调查的三百用户可以反映本地区的总体情况；

5、调查地区以图中栅格进行划分，将面积接近一个栅格面积的相邻区域当作整体，其它占整个栅格面积的区域单独作为一个整体。

三、符号变量及说明：

i=1,2,3„300---------代表用户编号；

j=1,2,3„6221--------代表300个用户十天之内打的6221个电话按时间排序后对应的序号；

k=1，2，3„30------------代表30个基站；

三、模型的建立及求解：

1）、问题一模型的建立及求解：

1、建立算法对用户通话时长及次数统计:

对通话次数及通话时长作线性回归分析可得：

由y =β0+β1x +ε确定的模型为一元线性回归模型，记为

利用Matlab 处理数据可得 b = 181.9923

bint = 180.8284 183.1561

1）首先对不同时长段用户进行统计，并作图；

由图可知，不同通话时长段内人数分布总体呈正态分布。据图可以估计出其概率密度图。

3.5

-4

2.5

1.5

0.5

[***********][***********]010000

2）、问题二模型的建立及求解：

10天主叫累计通话时长

12755

用户编号

[**************]9

2000

3792.5

4000

累计通话时长

[1**********]00

方案一：根据模型一，可知用户按时间段分为三类。为了发展新客户稳

方案二：通过统计不同时长内的基站累计个数，用matlab 作图将时长大

2468101214x 10

3）、问题三模型的建立及求解

占地面通话次

区域基站积数占地面积/通话次数

1 1 30 1 863 863 2 2 1 51 51 3 3 4 1 111 111 4 5 6 1 112 112 5 7 1 66 66 6 8 1 71 71 7 9 1 147 147 8 10 1 135 135

9 11 28 29 10 12 13 14 11 15 12 16 13 17 14 18 15 19 16 20 17 21 1 3 1 1 1 1 1 1 1 2027 420 374 250 134 104 98 150 140 2027 140 374 250 134 104 98 150 140 18 22 19 23 24 25 20 26 21 27

占地面区域

基站积

1 1 30 1 2 2 1 3 3 4 1 4 5 6 1 5 7 1 6 8 1 7 9 1 8 10 1 9 11 28 29 1 10 12 13 14

3 11 15

1 12 16 1 13 17 1 14 18 1 15 19 1 16 20 1 17 21 1 18 22

1 23 24 19 25

3 20 26 1 21

1 445 445 3 387 129 1 29 29 1 107 107

17890

由以上统计数据绘图如下：

对基站通话次数及时长统计作图

[1**********]0

400300

200

1000

[**************]26

对基站的通话次数及通话时长作线性回归分析可得：

我们可从通话次数与通话时长图可知；基站通话次数与时长成正比

四、模型的优缺点及改进：

五、参考文献：

【1】赵静，但琦，严尚安，杨秀文，《数学建模与数学实验》，高等教育出版社，2008年：

六、附录：

部分程序：

（1）用户通话时长统计直方图首先将“通话1.Xls ”导入Matlab

建立 data double 文件 1）用户通话时长统计直方图

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

s %导出每个主叫者通话总时长 d=zeros(14,1); for i=1:300 for n=1:14

if ((n-1)*500

d %对主叫者通话总时长统计排序 r=500:500:7000

bar(r,d) %画频率直方图

2）主叫者正态分布均值方差及概率密度函数程序计算对主叫者进行正态分布估计 a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end

normplot(s) a=(data(1:6221,2)); b=(data(1:6221,5)); s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i); s(i)=s(i)+b(j); end end end

e=mean(s); %求平均值 d=std(s); %求期望

[m,v]=normstat(e,d); %对统计量估计正态分布函数 y=normpdf(x,e,d);

plot(x,y) %画正态分布函数图象 m =

3.7757e+003 v =

1.6010e+006

（3）对主叫者通话时长及次数作线性回归分析： a=(data(1:6221,2)); %调入主叫者数据

b=(data(1:6221,5)); %调入主叫者通话时长

s=zeros(300,1); n=zeros(300,1); for i=1:300 for j=1:6221; if (a(j)==i);

s(i)=s(i)+b(j);

n(i)=n(i)+1; end end end s; n;

F 值、与F 对应的概率p

hold on

x=(0:1:40); y=181.9*x;

plot(x,y,'r') %画图通话次数与通话时长线性图 4）对各基站通话时长及通话次数统计：

a=(data(1:6221,6)); %调入数据

b=(data(1:6221,5)) %调入通话时长 s=zeros(30,1); n=zeros(30,1); for i=1:30 for j=1:6221; if (a(j)==i); s(i)=s(i)+b(j); n(i)=n(i)+1; end end end

s %输出基站通话总时长 n %输出基站通话总次数 plot(n,s,'o')

[b, bint,r,rint,stats]=regress(s,n) %对基站通话时长及次数作线性回归析 b bint stats

rsoplot(r,rint) %对基站通话次数及时长做残差分析图 5）对主叫者通话时长做进行假设性检验：正态总体的参数估计：

a=(data(1:6221,2)); %调入主叫者通话编号数据 b=(data(1:6221,5)); %调入主叫者通话时长 s=zeros(300,1); for i=1:300

for j=1:6221;

if (a(j)==i);

s(i)=s(i)+b(j); end end end s

[muhat,sigmahat,muci,sigmaci] = normfit(s)

通话数据分析(数学建模)

相关文章