涂子沛大数据

大数据生活方式与社会治理

涂子沛

知名信息管理专家

课程前言

田桐:学术前沿,思想对话,欢迎走进《世纪大讲堂》。如果有一天你看到一辆无人驾驶的车辆行驶在公路上,或者有一天看到一台打印机能够完完全全打印出你想所要的所有东西的话,那么你不必讶异,因为您已经进入到了大数据的时代。正如哈佛大学社会学的教授加里·金所指出的,这是一场革命,庞大的数据资源已经使得各个领域开始进入到了信息化的时代。无论是商界、学术界还是政府,所有领域都将进入到这个进程。那么究竟什么是大数据,大数据时代对我们的生活带来哪些变革和挑战呢?我们今天请到的嘉宾是《大数据》一书的作者,著名的信息管理专家涂子沛先生和我们阐述《大数据生活方式与社会治理》,有请。

解说:涂子沛,知名信息管理专家,中国旅美科学技术协会副主席,兼任华南理工大学公共政策研究院副教授,广东省政府大数据顾问。2012年其著作《大数据》在中国引起了对大数据战略的讨论,被《亚洲周刊》等媒体评为“2012年度中国十大好书”。2013年10月因为在大数据领域的研究和贡献,获第四届中国软科学前沿探索奖。

田桐:涂老师您好,非常感谢您的远道而来。

涂子沛:您好田桐,您好,大家好。

田桐:那么其实大数据这样一个词,我们进入到我们的视线当中是从2012年开始的,究竟大数据是一个什么样的概念?它起源于什么时候?

涂子沛:对,我们大家现在都在谈大数据,2012年被称为大数据元年,我们说怎么来理解这个大数据这个概念呢?核心要理解什么叫大,田桐你怎么理解什么是大呢?

田桐:所谓这个大数据我不知道是它的容量大还是说它现在所需要,或者今后承载的东西会越来越大?就是这个大是一个质的数字还是说一个量的数字?

涂子沛:没错。

田桐:我不太了解这个。

涂子沛:你说到的,我们说最重要的就是容量在变大,但是容量在变大呢是一个现象,

我们说大,还是可以说大房子还有大人物大趋势,这个大的意思是表示重要性、价值。那我们说本质是什么,大数据的本质是数据的价值在增加,除了容量在变大。

田桐:我们看到您的这本书,也是非常火的一本书《大数据》,在它的这个封面的副标题上也写着正在到来的数据革命。您认为这个革命是什么样的革命?会不会是第四次的浪潮?

涂子沛:我们经常说第四次的浪潮是针对说我们有前三次技术的浪潮对吧,18世纪的蒸汽机的浪潮,19世纪内燃机的浪潮到20世纪计算机的浪潮,这股浪潮呢说把我们带进了信息社会、信息时代。我们现在大数据时代来到了,我们说是一个新的浪潮,但是呢我们能不能说这是人类历史上的第四次浪潮?这个结论我们暂时还不能下,我们要拉长历史的镜头,还有待观望,但是大部分学者都认为,我们已经不仅仅处在一个信息时代了。很多人说在我们在一个新的时代,那这个新的时代叫什么名字呢?有的人说叫新信息时代,有人说叫后信息时代,那我有个观点,我认为我们在进入一个智能时代,不是一个简单的信息时代。

田桐:那么所谓的大数据时代,眼看着就要到来了,可能已经到来了,它对于我们来说难道仅仅只是数字上的改变吗?它会对我们的生活起到什么样的变化?

涂子沛:对,数据会影响我们的生活,最大的影响是什么呢?是我们会越来越依赖机器,越来越依赖网络,机器跟网络呢会获得智能,获得智慧,我们会进入一个人机共生的状态。但机器呢又是由数据驱动的,我们的生活会被数据主导,被数据驱动。有一句话说软件在定义这个世界,数据在驱动这个世界。

田桐:那您觉得这是一个好的事情还是一个坏的事情,生活的所有重点全部都由数据来驱导?

涂子沛:我认为这不是一个糟糕的事情,毕竟我们在迈进一个智能化的时代,这个智能化的时代,我们享受到很多的便利,就像主持人刚刚说的,无论驾驶汽车、3D打印,这都是在数据背后在驱动。我们生活身边就已经有很多了,你像阿里巴巴,这是我们中国的大数据公司,它在短时间内能够发放贷款,原来我们发放一笔贷款那经常要几个星期甚至一个月的时间去审核,但是它依靠它的大数据,在几分钟之内就能做出我贷不贷款这个决定效率是大大提高了。

田桐:那么现在在国际上都有哪些国家是在大数据引领前方的?

涂子沛:我想科技的引领者那肯定首推应该是美国了对吧,欧洲跟美国它们在这方面都做的不错。

田桐:他们比我们领先在哪些方面?

涂子沛:首先我想的话,就数据而言,我们现在说大数据时代数据是金矿,首先你得有这个矿,他们进入信息时代,进入信息社会比我们早,他们数据的积累比我们多,这是第一。第二,所有的基本上新的理念,技术浪潮的数据挖掘,机器学习这些新的理念还是在西方国家首先提出来。大部分高级的、高端的数据的分析工具,自主知识产权也在美国也在欧洲,那么还在说他们为了推动这个时代,欧洲很多国家包括美国,全世界有四十多个国家都在开放数据。我们数据现在是最重要的资源,他们把那些最重要的资源当中核心的部分、基础的部分、公共的部分拿出来开放,免费给全世界使用,这推动了科技创新跟社会创新。

田桐:那现在中国发展到一个什么样的地步了?我们接下来往哪方面发展?

涂子沛:我想的话,我们中国在大数据浪潮这个浪潮,我们是挑战跟机遇并存,这个浪潮是我们离世界的距离最近的一次,我们相对以前的浪潮,我们刚刚谈了三次技术浪潮,那时候我们跟世界的差距很大,但是现在我们跟世界的差距已经越来越小了,已经越来越小了。我们虽然还不是一些新的思想、新的技术产生的地方,但是新的思想、新的理念在全球自由的流动,我们可以吸收得很好,我们可以传播得很好。我们可以学习的很好,所以这是我们的机遇。

田桐:非常感谢您,更多的内容马上由您给我们带来今天的演讲,有请。

解说:大数据无疑是当下最为火热的IT词汇,围绕大数据价值的利用,逐渐成为各行业人士争相追捧的焦点。到底什么是大数据?它是如何发展而来?什么是数据挖掘?《世纪大讲堂》《大数据生活方式与社会治理》正在播出。

一、大数据的概念

涂子沛:大家好,我们今天在这里是学术前沿、思想交流,我们说我们谈到大数据的时候,现在是一个很热的话题,怎么来认识大数据的现象?万事万物都有一个起点,我们的起点是什么?我们的起点是数据。什么是数据?我们要了解什么是大数据,首先要明白什么是数据,数据不是简单的数字,数据是有根据的数字,数据是对客观世界的一个测量,一个记录,这才是数据。当我们一想到数据,我们会想到什么?我们会想到计算,我们想到事实,数据是最尖锐的事实,最精确的事实。为什么要用数据说话?翻译过来就是要用事实来说话。我们还想到逻辑,想到精确。我们主持人刚刚也谈到加里·金教授,哈佛大学的加里·金教授,他提出一句话,大数据是什么?大数据是一场量化的革命。我们说数据它就是一个量化的一个工具,而量化,所有的科学都是为了量化。量化是科学的本质,如果没有量化的话那就没有科学,所以我们说数据是科学的语言,是科学的载体。

我们说在进入信息时代之后,数据的内涵是在扩大的,发生了一个变化,什么变化?我们计算机产生了,数据库出现了,我们把所有的东西放到数据库里,结果呢数据的内涵就扩大了,音频也放在里面,视频也放在里面,图形也放在里面。到信息时代的时候呢,数据已经开始指代信息了,它不是传统的有根据的数字了,就它内涵扩大了,成为信息的代名词了。

还有一个更重要的变化,那就是体量在扩大,容量在扩大,那怎么扩大法呢?我们可以举一个例子,我们说过去五十年,《纽约时报》所有的容量是三十亿单词,但现在我们仅仅一天微博上就是八十亿单词。相当于一天的这个数据量,就相当于过去一百多年的报纸的数据容量。

所以上世纪八十年代的时候,很多学者就开始注意到这个问题了,他们就开始来定义大数据。到底多大才算大呢?当时宾夕法尼亚大学的一个教授定义了一个叫两百太是吧,两百太的数据,他说叫做大数据。那两百太到底是多大呢?一千吉(赫兹)呢就是一个太,一部电影大概是一个吉,那两百太呢就相当于二十万部电影。当时的定义就是这样,二十万部电影的容量就是大数据了,就是大数据。那我们人类现在这个信息总量呢,我们说在这里啊,泽,我们现在大概是一个泽左右。

二、大数据的成因

我们有了这个概念之后,我们就来谈大数据是怎么形成的,成因是什么,为什么我们何以走到今天对吧?我们走到今天不仅仅是一个数据的积累,从进入信息时代之后,我们1946年发明第一台计算机进入信息时代,到现在60多年了,我们其实克服了很多困难,有很多的技术进步,才把我们推动到了今天。我们说第一个是什么,第一个就是1965年提出来的这个摩尔定律,1988年提出来的普适计算。1989年提出来的数据挖掘,我们说还有2004年出现的这个社交媒体,就这些现象集体地推动,才出现了这个大数据。我们来看看它具体怎么推动的。

1965年的时候呢,英特尔的这个联合创始人摩尔他就发现一个规律,他说一个集成电路,一个芯片上,同一个面积上的晶体管,一到两年这个数量就要增加一倍,现在我们一个微处理器,上面的晶体管大概是几十亿个,就晶体管越做越小,越做越小,当然材料就越来越少,价格越来越低。同一个面积上不停地增加,它的性能就越来越好,导致了一个什么呢,就是这个计算机的性价比不断提高,价钱不断降低,性能反而不断提高。我们比如说硬盘,1955年的时候,IBM推出第一款硬盘的时候,那时候一兆就六千美元,我们说一首歌就几个兆了,那时候保存一首歌要几万美元对吧?我们说到1993年的时候,每兆降低到一美元,

到了2010年的时候呢,降到每兆不到一美分了。你说半个世纪的存储器的价格是下降了几百万倍,我们说人类历史上没有一种产品在半个世纪,它的价格能下降几百万倍。

大家争论比较多的是说什么?摩尔定律还会不会继续有效?英特尔现在已经发明了3D晶体管对吧?他们已经用事实证明了,他们说摩尔定律到2020年之前,还会继续有效,就是(价格)还会继续下降。摩尔定律为我们解决一个很重要的问题,它为大数据时代的到来铺平了道路,物理道路,就是再多的数据,再多的信息我可以非常低廉的成本来进行保存。

那我们讲第二个因素,普适计算,在1988年的时候,美国的一个科学家叫马克·维瑟提出来的,他说什么呢?1988年互联网刚刚产生,他说人类的计算浪潮可以分为三股,第一股叫做主机时代,主机时代的时候,计算机奇大无比,很多人共用一个计算机。一台计算机就占了半个房间。好到了上个世纪七十年代末的时候,计算机变得很小了,出现了个人电脑,人手一机,但马克·维瑟说这不是时代的终结,时代的终结是计算机会变得很小很小,它会融入到这个物理环境当中去,那你发现都发现不了。我们今天是不是到了这个时代?我们说我们的手机已经是台计算机了,我们如影随行是吧?我们还有RFID这种射频标签对吧已经很小很小,小的像豆子一样。它是可以接收数据,可以发送数据。现在已经很多的应用,我们可以把这种RFID的标签放到垃圾筒里,垃圾筒满了的时候就发出信号对吧,美国的废城他们就实施了一个这样的项目。这个收垃圾的人员工作量直线下降,原来几十个人收垃圾,垃圾处理队伍现在变成几个人。

无论是摩尔定律还是普适计算,解决的问题都是刚刚主持人说的大容量的问题。大价值的问题一直到1989年我们提出数据挖掘之后才得到解决,1989年的时候,世界计算机协会召开了第一次数据挖掘的年会,标志着数据挖掘开始兴起。我们说数据挖掘是用自动的算法在大量的数据当中得到一些隐藏的关系、模式,总结出新的知识。我们说数据挖掘也是大数据时代大众所津津乐道的话题,其中最经典的例子莫过于某个超市的啤酒和尿布的故事。某个超市在数据当中发现啤酒和尿布它们的销量呈现正相关的关系。为什么是这样呢?经过调查他们发现,母亲在生了孩子之后买尿布的经常是年轻的父亲,他们在买尿布的时候呢,喜欢买点啤酒犒劳自己,那这个就是一个知识。超市利用这个知识把啤酒和尿布捆绑在一起,推动了两个商品的销量,成为了它的竞争性优势。

我们中国也不乏这样的例子,最近华东师范大学有一个报道,我们有一个女生收到了来自校方的一封信,信里面问她你是不是有经济困难?原来是校方的这个数据挖掘系统发现她餐费一直很少,这个女生很感动,但事后发现这是一个美丽的错误,她其实是在减肥。我们教育领域还有一些其他的故事,我们再说美国的威斯康辛州,他们有个学区,他们发现小学

生一二年级的小学生经常请假,而且每年请假的这个比率趋向一个恒定,他们就做数据分析。他们发现请假最大的原因就是生病,生病最大的原因是哮喘病。有了这个发现之后,他们在开学新生入学的时候,就组织家长进行哮喘病的防治讲座,这个很见效。接下来一两年呢,这个学生请假的比率呢就明显下降。我们说在数据当中挖掘出新的知识,数据挖掘给了我们人类使用数据的一个能力。

我们说到2004年的时候,我们信息技术上的又一个革命性的现象出现了,社交媒体出现了。我们说社交媒体对人类社会的影响也是革命性的,我们举个例子,2011年的时候,弗吉尼亚发生了地震,但是我们纽约州的居民距离弗吉尼亚几百公里,他们首先在推特上看到弗吉尼亚地震了,弗吉尼亚地震了,几秒钟之后这个震感才传到纽约州。那我们知道现在信息传播的速度比地震波还要快。

那这个社交媒体对我们的这个大数据时代有什么意义呢?这个意义是决定性的,为什么这么说?我们这个社交媒体产生之前,我们是软件在收集数据,是感应器在收集数据,但社交媒体产生之后,是全世界的网民都开始贡献数据,而且这部分数据很特别,叫做非结构化数据。我们以前软件收集的数据是有严整结构的。我们今天你发微博,他上开心网,他发的微博有可能有一个视频,你发的可能没有视频,有一个图像,说明它结构是乱的。这部分非结构化的数据,也给我们数据分析、数据挖掘带来最大的挑战,这部分非结构化的数据,同时也叫行为数据。当全世界的网民开始贡献数据的时候,这数据真正开始爆炸了,现在社交网络仅仅产生八年多,但非结构化数据已经占人类数据总量的75%。大家可以想像,所以说社交媒体产生之后,大数据时代就一锤定音了。

解说:伴随着大数据时代的到来,数据与计算的内涵都发生了改变。人类将会迎来一个数据爆炸的时代,那么大数据到底是如何改变我们的生活方式?又怎样能够实现社会治理?世纪大讲堂,《大数据生活方式与社会治理》正在播出。

三、大数据的影响

涂子沛:好我们讲到这里,我们再来看看这个大数据的概念,我们现在应该有了一个更深刻的理解,我们说这里有三个等式,大数据等于传统的小数据加上现在的大信息,视频信息、声频信息、图像信息。那么第二等式是大数据等于非结构化的数据,加上结构化的数据,一个百分之二十五,一个百分之七十五。好,第三个也是最重要的,我们说大数据等于大容量加上大价值,容量是现象,价值才是本质。

好,我们有了这种理解之后,我们就知道在这个时代,我们必须转变我们的思维方式,

怎么转变呢?我们说原来我们对数据的期待和要求是用数据说话,因为数据代表最精确的事实,最锐利的事实,用数据说话的意思就是用事实说话,但是说在大数据时代这远远不够。我们现在要做的是要在数据当中寻找新的启迪,挖掘新的知识,总结新的规律,这是大数据时代的思维方式。

好,我们对大数据有了更深刻的认识之后,我们随后要问,大数据对我们的生活究竟有什么样的影响?它把我们带到哪里去?我的一个判断是,我们的社会会兴起一个全计算型的社会。首先我们要知道我们刚才讲了数据的内涵发生了改变,因为数据的内涵发生了改变,计算的内涵也发生了改变。我们说计算已经不是我们传统的加减乘除了,我们刚才说数据不仅仅是传统的、有根据的数字,现在文字也是数据、视频也是数据。举个例子说,你想找到凤凰卫视《世纪大讲堂》的视频,你可能上百度输入关键字《世纪大讲堂》进行搜索,你输入的是文字,得出的是视频。这个也是计算,也就是说搜索就是计算。

我们整个社会、整个世界的计算呢可以分为三种,第一种是物理计算,第二种是有生命现象的计算,第三个呢就是社会计算。好,我们先说第一种物理计算,谈到物理计算呢,我们就不得不提到另外一个概念物联网,我们未来是所有的电器、机器都会装上感应器。连上网络,就会让我们的数据呢会有一个更大的爆炸。我们刚刚谈到,当我们的人开始贡献数据的时候,数据爆炸了,当全世界的机器、电器开始贡献数据的时候,将会迎来一个更大的数据爆炸。

好我们未来的物联网世界是什么样子,我们来看看这幅图,大家看到飞机,一架飞机上有很多重要的机器,我们说未来的物联网,感应器要装到这些重要的每一个部位的机器上,一架飞机上会有很多的感应器,每一个螺旋桨上都有感应器。然后同一个航空公司的飞机组成一个网络,不同的航空公司,世界上全部的航空公司组成一个集群,全世界的飞机之间、机器之间可以互相通信。

我们再看下面这幅图,被称为这是汽车商的一个工厂,位于纽约州的一个工厂,电池厂,被称为工厂2。0,它的工厂里一万六千平方米,但是装了一万个感应器。这些感应器在对工厂的各个条件进行监测。比如说温度,比如说压力,比如说湿度,比如说在生产的过程中,各种的配料,它的一个口号是什么,是让产品产生记忆。就是一个产品送出去,出了工厂之后,如果它有问题了用户反馈有问题了,我们立刻会查找它当时生长时候的条件,追溯它的数据,去确定它的问题。

我们讲了物理计算,我们也提到了生命计算,我们最后要提社会计算。社会计算是大数据时代最大的亮点,因为社会计算,我们的社会治理模式将会发生改变,大家会觉得很奇怪,

为什么社会能够计算?我们说社会计算也有很长的、很久远的渊源,我们先从近的说起,我们社交媒体产生之后,我们很多社会科学的研究者发现,通过社交媒体上的数据,我们能够做出很多推断,你能发现一个人的喜好、偏好、观点、意见,那传统的方式我们要发现一个人的意见的时候,要去做问卷调查。例如说美国的总统选举,原来的传统的预测方式谁能当选?我得一个一个去问,选取有代表性的选民进行询问,完成这个调查,但我们能看到,我们上一届选举这种局面已经完全改变了。奥巴马的当选,投票完了之后就有社会科学的研究者分析了微博上的数据、社交网络上的数据,就宣布奥巴马即将当选,最后奥巴马果然胜出。

他们认为基于这种社交媒体的计算,他们称之为社会计算。另外有科学家相信,我们现在数据越来越多,各种数据现象都被记录了。所以呢未来一切社会现象、社会过程、社会问题都可以计算。还有科学家打出比喻说,我们现在的数据就像一个新的显微镜,我们14世纪的时候发现显微镜,这个显微镜我们把它对准了物理世界,这个显微镜的产生使人类的知识开始爆炸。现在我们大数据这个显微镜对准的是人的行为、社会现象,这将引起社会科学知识关于人本身的知识的一个大的爆炸。

我们说从数据当中去发现规律,用数据来解决社会问题,这种想法其实有更久的渊源。1830年我们的法国哲学家孔德他就提出社会物理学的概念,他们当时也从数据当中得到一些重要的发现,他们在研究自杀率,他们发现伦敦的自杀率无论是在一个经济箫条的时候还是经济繁荣的时候,自杀率几乎是恒定的。就像有一块铁磁石一样,吸引着去自杀。所以他们就提出社会物理学,他们认为社会就像天体一样,存在规律,怎么去发现这种规律呢,就要用数据去发现。但是受限于当时的条件,数据有限,到了我们这个时代,大数据的时代,所以有更多的学者相信,社会计算一定会兴起,用计算、用数据来解决社会问题,是未来的发展方向。

我们再举一个例子,今年4月份的时候,美国有一个很小的报纸迈阿密有一个《太阳哨兵报》,获得了普利策新闻奖,它的发行量只有二十万份,那为什么呢?这个又跟大数据有关。当地发生了一起恶性的交通事故,警察开快车把人撞死了。好,《太阳哨兵报》有一个记者,他就怀疑警察这个群体长期开快车,屡屡发生这些事故,他提出这个怀疑和观点之后,他必须进行证实。你要证实警察开快车,这非常难以取证,唯一的办法跟踪警察,但是这个难度很大。好,他最终想出了一个办法,他利用美国的信息公开法,向交通部门申请公开了获得了警车当地所有的警车过交通收费站的记录。那它选取两个交通收费站计算之间的距离,然后还有时间的记录,距离除以时间就是他们的车速。他获得了一百万条记录,他进行计算之后,就发现在八个月的时间当中,有五千一百辆警车的平均速度超过一百五十公里每

小时。可想而知,他这个发现宣布之后,引起了当地警务部门的大地震。有人被开除了,有人要写检讨,有人被剥夺了开警车的权利,甚至引起了全美的大讨论,解决了一个巨大的问题,这是公民利用数据对公权力进行制约。我们可以想像如果没有数据,如果没有大数据,这种问题基本上得不到解决。

好,我们今天讲了这么多,我们最后总结一下,有三个要点。第一,我们说大数据不是一个孤立的现象,大数据是诸多的信息技术浪潮、信息技术革新在一起交互作用产生的。我们说我们人类的数据还要上升。第二大数据对我们的影响是,我们将迈进一个智能型的社会,在这个智能型社会当中,我们人,我们的生活会越来越依赖数据、依赖计算机、依赖网络,进入一个人机共生的状态。最后我们会进入一个全计算型的社会,最大的亮点是社会计算,整个社会计算的兴起,将改变我们社会治理的模式,好了,我的演讲就到这里,谢谢大家。

解说:大数据时代将给企业带来无限商机,但又如何与个人息息相关?美国棱镜门事件敲响警钟,大数据时代该如何保护个人隐私?大数据的革命又何时能够在中国成功落地?《世纪大讲堂》《大数据生活方式与社会治理》正在播出。

四、现场提问

田桐:感谢您刚才的精采演讲,我们现场的观众朋友们呢,有一些问题想和您进行交流的。

涂子沛:好的。

田桐:来,有问题的。来,中间这位男士吧。

观众:涂老师好,主持人好,其实很容易理解大数据时代对于企业的价值,那对于我们个人来说,会带来哪些有帮助的事情呢?我们应该如何去建立自己的这个数据库呢?谢谢。

涂子沛:对个人来说,那当然有很多相关的地方,我想说的第一个相关的地方,就是说数据是知识的载体,你要从数据当中发现新的知识,你要重视数据。我们说你去做研究也好,恐怕做现场调查还不如系统的收集数据,获得数据,系统的数据也许比亲身去调查也许还有作用,这是第一。第二呢,数据是隐私的载体,你的个人数据是你的个人隐私,我们说还有这个时代,数据还是个人权利的载体,PM2。5是多少,你是有权利知道的对吧,你的自来水里面各种微生物的含量是多少,各种类金属的元素的含量是多少,这些都是数据。它是成为一个权利的载体,个人跟个人的生活是息息相关的。

观众:涂老师好,主持人好,就是我们毋庸置疑,大数据时代对我们社会生活,商业或者学术方面都有很多的便利,但是美国棱镜门事件也将我们带入了对大数据时代的一种恐

慌。就是我们在这个数据时代,怎样保障您刚才提到的隐私呢?谢谢。

涂子沛:隐私和商业的利益是我们需要一个平衡,在新的大数据时代,但这种平衡在每个社会呢都在形成当中,美国社会也做得不是很好。我们中国社会在这一方面会更糟糕一点,商家为了利益不断侵犯,用数据来侵犯大众的隐私,这就需要整个社会形成一个新的意识,不断地公众不断的去跟商家博弈,整个社会形成新的法律,那商家不能够随便挖掘这个用户的数据,挖不挖应该是由这个用户来说了算,他要对这个数据有主导权,这需要有新的法律,来对这个进行规范,需要立法。

观众:涂老师您好,我是做舆情分析的,我想问一个跟自己工作有关的一个问题,就是因为我们经常要在一个突发事件之后,来预测这个民意的倾向,预测民意的走势,我就想问一下就是我们收集多少数据,您觉得才足以对一个民意做一个相对准确的预测。然后我们大概要分析到什么层次,才能做这样一个预测?还有一个问题就是我看您在书上写这个数据,就是政府对数据的公开是非常重要的,前一段时间,就是国家统计局建立了一个网上的一个数据中心,可以就是免费地去下载一些关于国计民生的,还有经济方面的这种重要的数据。我想问一下您对它这个做法您是怎么看的?然后它现在公布的数据您觉得是否就是您觉得它质量如何、数量如何,我们可以怎样利用这些数据?谢谢。

涂子沛:我想我的建议是需要多元的数据,多个源头的数据,来印证一些民意,而不是单元的。比如说分层次的多元的,不仅仅,比如说你做得最多恐怕是微博的数据对吧,那我们说微博的数据还不够对吧,如果仅仅用微博,大部分用户是年轻的用户对吧,你还得用其他的数据比如说问卷调查、街头访谈,多元的数据来互相印证一个观点,这是第一个。第二个国家统计局在做的这个事情,无疑是符合世界潮流的一个事情,把数据公开开了,开放出来,让大家来使用,我觉得国家统计局还可以做更多的事情,而不仅仅是公开,把原始数据开放出来,举行一些竞赛在高校,调动大家来使用这些数据。

观众:涂老师好,主持人好,我是一名互联网行业的从业者,那么作为互联网行业的话呢,肯定是对信息革命的这个接受程度、开放程度最高的,那么我们也希望您能给大家预测一下,大数据,或者本身这个大数据的革命,在国内能够落地或者能够很好的一个爆发之后,这个需要多长一个时间?也给我们从业者一个鼓励吧,这是第一个问题。第二个问题的话是一个个人行为,就是我们现在可能由于这个数据挖掘等一些水平还不是特别的发达,我们比方在一些电子商务网站网购之后,那可能我本身是一次性购买的行为,但商家不断地给我推送一些他所谓的猜你喜欢的,还是说类似的商品你可能会购买,但是对我已经产生一个困扰,我怎么样能够对我进行一个很好的保护,希望得到您的回答,谢谢。

涂子沛:好,我们先从回答第二个问题起,刚刚说的,就是说在这个时代呢,其实你在获得一些便利,你把自己的数据推出去之后,你的行为被它记录了,它根据你记录的数据来猜你喜欢什么,不断向你推送什么,有些东西确实是你喜欢的,你是得到了便利,但是呢一定程度上又对你形成了骚扰,所以我们说最终这个权利应该把它给到用户当中去。就用户我来决定我开不开放这些数据,你能不能使用这些数据对我进行挖掘,如果我有选择权,我愿意享受这种便利,那你就能挖掘我的数据,我接受你的推送。那这有很多种方式对吧,可以在事前控制也可以在事后控制,事前给你一个选项,事后还可以给你一个选项,你愿不愿意继续接到我们对你的推送,如果取消你不再接到对吧,所以还是基于商家有一种自觉,对这个用户的一种尊重。但是商家的这种自觉跟尊重,我们说不会从天而降对吧,是要大家去说不,当整个社会都说不的时候,当立法者意识到这个问题的时候,新的法律出来的时候,这个问题才能得到最根本的解决。好,那你前面那个问题,我想大数据的落地,其实在中国已经有很多项目在落地了。我相信在五年之内吧,我们能看到越来越多的项目,在遍地开花。

观众:涂老师您好,就是我们曾经探讨过一个有趣的问题,就是我们死了以后,我们QQ怎么办?就是说呢,在这个大数据时代,它的数据的量是非常规模庞大的,那么会不会相应的产生一些数据垃圾?那么这个会对我们实际生活有没有影响?那么这个数据垃圾我们又该怎么面对?怎么办?谢谢。

涂子沛:好,这个问题两个问题,其实第一个问题数据遗产的问题,这都是新的伦理的问题,第二个是数据垃圾的问题。那对数据遗产呢,现在有很多种处理方式,西方国家也在立法,谁能继承你的这个遗产。为什么我们说这个时代是一个革命?因为有很多新的问题在出现,相信这个问题在中国,我们整个社会是迟早要面临的。我们说我们现在的网上聊天用户大多是年轻的一代,但是二十年之后呢,我们是不是应该有这种前瞻性,现在就对这些问题进行思考呢?这显然还没有提上我们国家立法者的议程。

田桐:那么就您看来怎么解决这个问题?

涂子沛:立法,谁能继承?肯定是有第一继承人,有第二继承人,有遗嘱对吧,整个社会要形成一个观念,你的数据是你遗产的一部分,现在已经出现了这些事情了,就是美国就出现这种事情了,有人自杀了对吧,他自杀之后,警方为了了解他自杀的原因对吧,就想去登录他的各个帐号,那警方有没有权利这样做呢?那社交网络给不给他这样干呢?他身边的亲人也都想了解,那他的隐私权在哪里?整个社会我们能看到很多问题。就个人方面,你首先把数据当做你的遗产,然后国家层面、社会层面要制定合适的法律来规范这个问题。

田桐:那么像刚才她说的第二个问题,这些庞大的数据的垃圾,我们应该怎么去处理?

涂子沛:这对商业公司是一个挑战,比如说qq网络聊天工具,我们毫无疑问,它在积累大量的数据垃圾,它可能在公司内部会有一个政策,是多少年对什么样的数据要做出什么样的清理。我们还能看到数据的累积当中它是有一些规律的。我们说有价值的数据,它上升的趋势是比垃圾上升的趋势是要缓慢的,就垃圾数据的这个上升趋势更快。有价值的数据呢上升得更慢,那对这个比如说网络聊天工具,它就要做一些考虑对吧?一种是删除,最简单的方式,还有一种是转移,它转移到更低成本的这个存储器上去。

田桐:感谢您刚才的精彩解答。2013年5月,阿里巴巴董事局主席马云在其卸任演讲的时候说,在我们还没有了解PC的时候,移动互联网来了,在我们还没有了解移动互联网的时候,大数据来了,大数据带给我们的绝不仅仅是一个商业模式或者技术,而是我们开启全新世界的方法论。再一次感谢涂老师的精彩演讲,感谢您收看这一期节目,下一期再见!

大数据生活方式与社会治理

涂子沛

知名信息管理专家

课程前言

田桐:学术前沿,思想对话,欢迎走进《世纪大讲堂》。如果有一天你看到一辆无人驾驶的车辆行驶在公路上,或者有一天看到一台打印机能够完完全全打印出你想所要的所有东西的话,那么你不必讶异,因为您已经进入到了大数据的时代。正如哈佛大学社会学的教授加里·金所指出的,这是一场革命,庞大的数据资源已经使得各个领域开始进入到了信息化的时代。无论是商界、学术界还是政府,所有领域都将进入到这个进程。那么究竟什么是大数据,大数据时代对我们的生活带来哪些变革和挑战呢?我们今天请到的嘉宾是《大数据》一书的作者,著名的信息管理专家涂子沛先生和我们阐述《大数据生活方式与社会治理》,有请。

解说:涂子沛,知名信息管理专家,中国旅美科学技术协会副主席,兼任华南理工大学公共政策研究院副教授,广东省政府大数据顾问。2012年其著作《大数据》在中国引起了对大数据战略的讨论,被《亚洲周刊》等媒体评为“2012年度中国十大好书”。2013年10月因为在大数据领域的研究和贡献,获第四届中国软科学前沿探索奖。

田桐:涂老师您好,非常感谢您的远道而来。

涂子沛:您好田桐,您好,大家好。

田桐:那么其实大数据这样一个词,我们进入到我们的视线当中是从2012年开始的,究竟大数据是一个什么样的概念?它起源于什么时候?

涂子沛:对,我们大家现在都在谈大数据,2012年被称为大数据元年,我们说怎么来理解这个大数据这个概念呢?核心要理解什么叫大,田桐你怎么理解什么是大呢?

田桐:所谓这个大数据我不知道是它的容量大还是说它现在所需要,或者今后承载的东西会越来越大?就是这个大是一个质的数字还是说一个量的数字?

涂子沛:没错。

田桐:我不太了解这个。

涂子沛:你说到的,我们说最重要的就是容量在变大,但是容量在变大呢是一个现象,

我们说大,还是可以说大房子还有大人物大趋势,这个大的意思是表示重要性、价值。那我们说本质是什么,大数据的本质是数据的价值在增加,除了容量在变大。

田桐:我们看到您的这本书,也是非常火的一本书《大数据》,在它的这个封面的副标题上也写着正在到来的数据革命。您认为这个革命是什么样的革命?会不会是第四次的浪潮?

涂子沛:我们经常说第四次的浪潮是针对说我们有前三次技术的浪潮对吧,18世纪的蒸汽机的浪潮,19世纪内燃机的浪潮到20世纪计算机的浪潮,这股浪潮呢说把我们带进了信息社会、信息时代。我们现在大数据时代来到了,我们说是一个新的浪潮,但是呢我们能不能说这是人类历史上的第四次浪潮?这个结论我们暂时还不能下,我们要拉长历史的镜头,还有待观望,但是大部分学者都认为,我们已经不仅仅处在一个信息时代了。很多人说在我们在一个新的时代,那这个新的时代叫什么名字呢?有的人说叫新信息时代,有人说叫后信息时代,那我有个观点,我认为我们在进入一个智能时代,不是一个简单的信息时代。

田桐:那么所谓的大数据时代,眼看着就要到来了,可能已经到来了,它对于我们来说难道仅仅只是数字上的改变吗?它会对我们的生活起到什么样的变化?

涂子沛:对,数据会影响我们的生活,最大的影响是什么呢?是我们会越来越依赖机器,越来越依赖网络,机器跟网络呢会获得智能,获得智慧,我们会进入一个人机共生的状态。但机器呢又是由数据驱动的,我们的生活会被数据主导,被数据驱动。有一句话说软件在定义这个世界,数据在驱动这个世界。

田桐:那您觉得这是一个好的事情还是一个坏的事情,生活的所有重点全部都由数据来驱导?

涂子沛:我认为这不是一个糟糕的事情,毕竟我们在迈进一个智能化的时代,这个智能化的时代,我们享受到很多的便利,就像主持人刚刚说的,无论驾驶汽车、3D打印,这都是在数据背后在驱动。我们生活身边就已经有很多了,你像阿里巴巴,这是我们中国的大数据公司,它在短时间内能够发放贷款,原来我们发放一笔贷款那经常要几个星期甚至一个月的时间去审核,但是它依靠它的大数据,在几分钟之内就能做出我贷不贷款这个决定效率是大大提高了。

田桐:那么现在在国际上都有哪些国家是在大数据引领前方的?

涂子沛:我想科技的引领者那肯定首推应该是美国了对吧,欧洲跟美国它们在这方面都做的不错。

田桐:他们比我们领先在哪些方面?

涂子沛:首先我想的话,就数据而言,我们现在说大数据时代数据是金矿,首先你得有这个矿,他们进入信息时代,进入信息社会比我们早,他们数据的积累比我们多,这是第一。第二,所有的基本上新的理念,技术浪潮的数据挖掘,机器学习这些新的理念还是在西方国家首先提出来。大部分高级的、高端的数据的分析工具,自主知识产权也在美国也在欧洲,那么还在说他们为了推动这个时代,欧洲很多国家包括美国,全世界有四十多个国家都在开放数据。我们数据现在是最重要的资源,他们把那些最重要的资源当中核心的部分、基础的部分、公共的部分拿出来开放,免费给全世界使用,这推动了科技创新跟社会创新。

田桐:那现在中国发展到一个什么样的地步了?我们接下来往哪方面发展?

涂子沛:我想的话,我们中国在大数据浪潮这个浪潮,我们是挑战跟机遇并存,这个浪潮是我们离世界的距离最近的一次,我们相对以前的浪潮,我们刚刚谈了三次技术浪潮,那时候我们跟世界的差距很大,但是现在我们跟世界的差距已经越来越小了,已经越来越小了。我们虽然还不是一些新的思想、新的技术产生的地方,但是新的思想、新的理念在全球自由的流动,我们可以吸收得很好,我们可以传播得很好。我们可以学习的很好,所以这是我们的机遇。

田桐:非常感谢您,更多的内容马上由您给我们带来今天的演讲,有请。

解说:大数据无疑是当下最为火热的IT词汇,围绕大数据价值的利用,逐渐成为各行业人士争相追捧的焦点。到底什么是大数据?它是如何发展而来?什么是数据挖掘?《世纪大讲堂》《大数据生活方式与社会治理》正在播出。

一、大数据的概念

涂子沛:大家好,我们今天在这里是学术前沿、思想交流,我们说我们谈到大数据的时候,现在是一个很热的话题,怎么来认识大数据的现象?万事万物都有一个起点,我们的起点是什么?我们的起点是数据。什么是数据?我们要了解什么是大数据,首先要明白什么是数据,数据不是简单的数字,数据是有根据的数字,数据是对客观世界的一个测量,一个记录,这才是数据。当我们一想到数据,我们会想到什么?我们会想到计算,我们想到事实,数据是最尖锐的事实,最精确的事实。为什么要用数据说话?翻译过来就是要用事实来说话。我们还想到逻辑,想到精确。我们主持人刚刚也谈到加里·金教授,哈佛大学的加里·金教授,他提出一句话,大数据是什么?大数据是一场量化的革命。我们说数据它就是一个量化的一个工具,而量化,所有的科学都是为了量化。量化是科学的本质,如果没有量化的话那就没有科学,所以我们说数据是科学的语言,是科学的载体。

我们说在进入信息时代之后,数据的内涵是在扩大的,发生了一个变化,什么变化?我们计算机产生了,数据库出现了,我们把所有的东西放到数据库里,结果呢数据的内涵就扩大了,音频也放在里面,视频也放在里面,图形也放在里面。到信息时代的时候呢,数据已经开始指代信息了,它不是传统的有根据的数字了,就它内涵扩大了,成为信息的代名词了。

还有一个更重要的变化,那就是体量在扩大,容量在扩大,那怎么扩大法呢?我们可以举一个例子,我们说过去五十年,《纽约时报》所有的容量是三十亿单词,但现在我们仅仅一天微博上就是八十亿单词。相当于一天的这个数据量,就相当于过去一百多年的报纸的数据容量。

所以上世纪八十年代的时候,很多学者就开始注意到这个问题了,他们就开始来定义大数据。到底多大才算大呢?当时宾夕法尼亚大学的一个教授定义了一个叫两百太是吧,两百太的数据,他说叫做大数据。那两百太到底是多大呢?一千吉(赫兹)呢就是一个太,一部电影大概是一个吉,那两百太呢就相当于二十万部电影。当时的定义就是这样,二十万部电影的容量就是大数据了,就是大数据。那我们人类现在这个信息总量呢,我们说在这里啊,泽,我们现在大概是一个泽左右。

二、大数据的成因

我们有了这个概念之后,我们就来谈大数据是怎么形成的,成因是什么,为什么我们何以走到今天对吧?我们走到今天不仅仅是一个数据的积累,从进入信息时代之后,我们1946年发明第一台计算机进入信息时代,到现在60多年了,我们其实克服了很多困难,有很多的技术进步,才把我们推动到了今天。我们说第一个是什么,第一个就是1965年提出来的这个摩尔定律,1988年提出来的普适计算。1989年提出来的数据挖掘,我们说还有2004年出现的这个社交媒体,就这些现象集体地推动,才出现了这个大数据。我们来看看它具体怎么推动的。

1965年的时候呢,英特尔的这个联合创始人摩尔他就发现一个规律,他说一个集成电路,一个芯片上,同一个面积上的晶体管,一到两年这个数量就要增加一倍,现在我们一个微处理器,上面的晶体管大概是几十亿个,就晶体管越做越小,越做越小,当然材料就越来越少,价格越来越低。同一个面积上不停地增加,它的性能就越来越好,导致了一个什么呢,就是这个计算机的性价比不断提高,价钱不断降低,性能反而不断提高。我们比如说硬盘,1955年的时候,IBM推出第一款硬盘的时候,那时候一兆就六千美元,我们说一首歌就几个兆了,那时候保存一首歌要几万美元对吧?我们说到1993年的时候,每兆降低到一美元,

到了2010年的时候呢,降到每兆不到一美分了。你说半个世纪的存储器的价格是下降了几百万倍,我们说人类历史上没有一种产品在半个世纪,它的价格能下降几百万倍。

大家争论比较多的是说什么?摩尔定律还会不会继续有效?英特尔现在已经发明了3D晶体管对吧?他们已经用事实证明了,他们说摩尔定律到2020年之前,还会继续有效,就是(价格)还会继续下降。摩尔定律为我们解决一个很重要的问题,它为大数据时代的到来铺平了道路,物理道路,就是再多的数据,再多的信息我可以非常低廉的成本来进行保存。

那我们讲第二个因素,普适计算,在1988年的时候,美国的一个科学家叫马克·维瑟提出来的,他说什么呢?1988年互联网刚刚产生,他说人类的计算浪潮可以分为三股,第一股叫做主机时代,主机时代的时候,计算机奇大无比,很多人共用一个计算机。一台计算机就占了半个房间。好到了上个世纪七十年代末的时候,计算机变得很小了,出现了个人电脑,人手一机,但马克·维瑟说这不是时代的终结,时代的终结是计算机会变得很小很小,它会融入到这个物理环境当中去,那你发现都发现不了。我们今天是不是到了这个时代?我们说我们的手机已经是台计算机了,我们如影随行是吧?我们还有RFID这种射频标签对吧已经很小很小,小的像豆子一样。它是可以接收数据,可以发送数据。现在已经很多的应用,我们可以把这种RFID的标签放到垃圾筒里,垃圾筒满了的时候就发出信号对吧,美国的废城他们就实施了一个这样的项目。这个收垃圾的人员工作量直线下降,原来几十个人收垃圾,垃圾处理队伍现在变成几个人。

无论是摩尔定律还是普适计算,解决的问题都是刚刚主持人说的大容量的问题。大价值的问题一直到1989年我们提出数据挖掘之后才得到解决,1989年的时候,世界计算机协会召开了第一次数据挖掘的年会,标志着数据挖掘开始兴起。我们说数据挖掘是用自动的算法在大量的数据当中得到一些隐藏的关系、模式,总结出新的知识。我们说数据挖掘也是大数据时代大众所津津乐道的话题,其中最经典的例子莫过于某个超市的啤酒和尿布的故事。某个超市在数据当中发现啤酒和尿布它们的销量呈现正相关的关系。为什么是这样呢?经过调查他们发现,母亲在生了孩子之后买尿布的经常是年轻的父亲,他们在买尿布的时候呢,喜欢买点啤酒犒劳自己,那这个就是一个知识。超市利用这个知识把啤酒和尿布捆绑在一起,推动了两个商品的销量,成为了它的竞争性优势。

我们中国也不乏这样的例子,最近华东师范大学有一个报道,我们有一个女生收到了来自校方的一封信,信里面问她你是不是有经济困难?原来是校方的这个数据挖掘系统发现她餐费一直很少,这个女生很感动,但事后发现这是一个美丽的错误,她其实是在减肥。我们教育领域还有一些其他的故事,我们再说美国的威斯康辛州,他们有个学区,他们发现小学

生一二年级的小学生经常请假,而且每年请假的这个比率趋向一个恒定,他们就做数据分析。他们发现请假最大的原因就是生病,生病最大的原因是哮喘病。有了这个发现之后,他们在开学新生入学的时候,就组织家长进行哮喘病的防治讲座,这个很见效。接下来一两年呢,这个学生请假的比率呢就明显下降。我们说在数据当中挖掘出新的知识,数据挖掘给了我们人类使用数据的一个能力。

我们说到2004年的时候,我们信息技术上的又一个革命性的现象出现了,社交媒体出现了。我们说社交媒体对人类社会的影响也是革命性的,我们举个例子,2011年的时候,弗吉尼亚发生了地震,但是我们纽约州的居民距离弗吉尼亚几百公里,他们首先在推特上看到弗吉尼亚地震了,弗吉尼亚地震了,几秒钟之后这个震感才传到纽约州。那我们知道现在信息传播的速度比地震波还要快。

那这个社交媒体对我们的这个大数据时代有什么意义呢?这个意义是决定性的,为什么这么说?我们这个社交媒体产生之前,我们是软件在收集数据,是感应器在收集数据,但社交媒体产生之后,是全世界的网民都开始贡献数据,而且这部分数据很特别,叫做非结构化数据。我们以前软件收集的数据是有严整结构的。我们今天你发微博,他上开心网,他发的微博有可能有一个视频,你发的可能没有视频,有一个图像,说明它结构是乱的。这部分非结构化的数据,也给我们数据分析、数据挖掘带来最大的挑战,这部分非结构化的数据,同时也叫行为数据。当全世界的网民开始贡献数据的时候,这数据真正开始爆炸了,现在社交网络仅仅产生八年多,但非结构化数据已经占人类数据总量的75%。大家可以想像,所以说社交媒体产生之后,大数据时代就一锤定音了。

解说:伴随着大数据时代的到来,数据与计算的内涵都发生了改变。人类将会迎来一个数据爆炸的时代,那么大数据到底是如何改变我们的生活方式?又怎样能够实现社会治理?世纪大讲堂,《大数据生活方式与社会治理》正在播出。

三、大数据的影响

涂子沛:好我们讲到这里,我们再来看看这个大数据的概念,我们现在应该有了一个更深刻的理解,我们说这里有三个等式,大数据等于传统的小数据加上现在的大信息,视频信息、声频信息、图像信息。那么第二等式是大数据等于非结构化的数据,加上结构化的数据,一个百分之二十五,一个百分之七十五。好,第三个也是最重要的,我们说大数据等于大容量加上大价值,容量是现象,价值才是本质。

好,我们有了这种理解之后,我们就知道在这个时代,我们必须转变我们的思维方式,

怎么转变呢?我们说原来我们对数据的期待和要求是用数据说话,因为数据代表最精确的事实,最锐利的事实,用数据说话的意思就是用事实说话,但是说在大数据时代这远远不够。我们现在要做的是要在数据当中寻找新的启迪,挖掘新的知识,总结新的规律,这是大数据时代的思维方式。

好,我们对大数据有了更深刻的认识之后,我们随后要问,大数据对我们的生活究竟有什么样的影响?它把我们带到哪里去?我的一个判断是,我们的社会会兴起一个全计算型的社会。首先我们要知道我们刚才讲了数据的内涵发生了改变,因为数据的内涵发生了改变,计算的内涵也发生了改变。我们说计算已经不是我们传统的加减乘除了,我们刚才说数据不仅仅是传统的、有根据的数字,现在文字也是数据、视频也是数据。举个例子说,你想找到凤凰卫视《世纪大讲堂》的视频,你可能上百度输入关键字《世纪大讲堂》进行搜索,你输入的是文字,得出的是视频。这个也是计算,也就是说搜索就是计算。

我们整个社会、整个世界的计算呢可以分为三种,第一种是物理计算,第二种是有生命现象的计算,第三个呢就是社会计算。好,我们先说第一种物理计算,谈到物理计算呢,我们就不得不提到另外一个概念物联网,我们未来是所有的电器、机器都会装上感应器。连上网络,就会让我们的数据呢会有一个更大的爆炸。我们刚刚谈到,当我们的人开始贡献数据的时候,数据爆炸了,当全世界的机器、电器开始贡献数据的时候,将会迎来一个更大的数据爆炸。

好我们未来的物联网世界是什么样子,我们来看看这幅图,大家看到飞机,一架飞机上有很多重要的机器,我们说未来的物联网,感应器要装到这些重要的每一个部位的机器上,一架飞机上会有很多的感应器,每一个螺旋桨上都有感应器。然后同一个航空公司的飞机组成一个网络,不同的航空公司,世界上全部的航空公司组成一个集群,全世界的飞机之间、机器之间可以互相通信。

我们再看下面这幅图,被称为这是汽车商的一个工厂,位于纽约州的一个工厂,电池厂,被称为工厂2。0,它的工厂里一万六千平方米,但是装了一万个感应器。这些感应器在对工厂的各个条件进行监测。比如说温度,比如说压力,比如说湿度,比如说在生产的过程中,各种的配料,它的一个口号是什么,是让产品产生记忆。就是一个产品送出去,出了工厂之后,如果它有问题了用户反馈有问题了,我们立刻会查找它当时生长时候的条件,追溯它的数据,去确定它的问题。

我们讲了物理计算,我们也提到了生命计算,我们最后要提社会计算。社会计算是大数据时代最大的亮点,因为社会计算,我们的社会治理模式将会发生改变,大家会觉得很奇怪,

为什么社会能够计算?我们说社会计算也有很长的、很久远的渊源,我们先从近的说起,我们社交媒体产生之后,我们很多社会科学的研究者发现,通过社交媒体上的数据,我们能够做出很多推断,你能发现一个人的喜好、偏好、观点、意见,那传统的方式我们要发现一个人的意见的时候,要去做问卷调查。例如说美国的总统选举,原来的传统的预测方式谁能当选?我得一个一个去问,选取有代表性的选民进行询问,完成这个调查,但我们能看到,我们上一届选举这种局面已经完全改变了。奥巴马的当选,投票完了之后就有社会科学的研究者分析了微博上的数据、社交网络上的数据,就宣布奥巴马即将当选,最后奥巴马果然胜出。

他们认为基于这种社交媒体的计算,他们称之为社会计算。另外有科学家相信,我们现在数据越来越多,各种数据现象都被记录了。所以呢未来一切社会现象、社会过程、社会问题都可以计算。还有科学家打出比喻说,我们现在的数据就像一个新的显微镜,我们14世纪的时候发现显微镜,这个显微镜我们把它对准了物理世界,这个显微镜的产生使人类的知识开始爆炸。现在我们大数据这个显微镜对准的是人的行为、社会现象,这将引起社会科学知识关于人本身的知识的一个大的爆炸。

我们说从数据当中去发现规律,用数据来解决社会问题,这种想法其实有更久的渊源。1830年我们的法国哲学家孔德他就提出社会物理学的概念,他们当时也从数据当中得到一些重要的发现,他们在研究自杀率,他们发现伦敦的自杀率无论是在一个经济箫条的时候还是经济繁荣的时候,自杀率几乎是恒定的。就像有一块铁磁石一样,吸引着去自杀。所以他们就提出社会物理学,他们认为社会就像天体一样,存在规律,怎么去发现这种规律呢,就要用数据去发现。但是受限于当时的条件,数据有限,到了我们这个时代,大数据的时代,所以有更多的学者相信,社会计算一定会兴起,用计算、用数据来解决社会问题,是未来的发展方向。

我们再举一个例子,今年4月份的时候,美国有一个很小的报纸迈阿密有一个《太阳哨兵报》,获得了普利策新闻奖,它的发行量只有二十万份,那为什么呢?这个又跟大数据有关。当地发生了一起恶性的交通事故,警察开快车把人撞死了。好,《太阳哨兵报》有一个记者,他就怀疑警察这个群体长期开快车,屡屡发生这些事故,他提出这个怀疑和观点之后,他必须进行证实。你要证实警察开快车,这非常难以取证,唯一的办法跟踪警察,但是这个难度很大。好,他最终想出了一个办法,他利用美国的信息公开法,向交通部门申请公开了获得了警车当地所有的警车过交通收费站的记录。那它选取两个交通收费站计算之间的距离,然后还有时间的记录,距离除以时间就是他们的车速。他获得了一百万条记录,他进行计算之后,就发现在八个月的时间当中,有五千一百辆警车的平均速度超过一百五十公里每

小时。可想而知,他这个发现宣布之后,引起了当地警务部门的大地震。有人被开除了,有人要写检讨,有人被剥夺了开警车的权利,甚至引起了全美的大讨论,解决了一个巨大的问题,这是公民利用数据对公权力进行制约。我们可以想像如果没有数据,如果没有大数据,这种问题基本上得不到解决。

好,我们今天讲了这么多,我们最后总结一下,有三个要点。第一,我们说大数据不是一个孤立的现象,大数据是诸多的信息技术浪潮、信息技术革新在一起交互作用产生的。我们说我们人类的数据还要上升。第二大数据对我们的影响是,我们将迈进一个智能型的社会,在这个智能型社会当中,我们人,我们的生活会越来越依赖数据、依赖计算机、依赖网络,进入一个人机共生的状态。最后我们会进入一个全计算型的社会,最大的亮点是社会计算,整个社会计算的兴起,将改变我们社会治理的模式,好了,我的演讲就到这里,谢谢大家。

解说:大数据时代将给企业带来无限商机,但又如何与个人息息相关?美国棱镜门事件敲响警钟,大数据时代该如何保护个人隐私?大数据的革命又何时能够在中国成功落地?《世纪大讲堂》《大数据生活方式与社会治理》正在播出。

四、现场提问

田桐:感谢您刚才的精采演讲,我们现场的观众朋友们呢,有一些问题想和您进行交流的。

涂子沛:好的。

田桐:来,有问题的。来,中间这位男士吧。

观众:涂老师好,主持人好,其实很容易理解大数据时代对于企业的价值,那对于我们个人来说,会带来哪些有帮助的事情呢?我们应该如何去建立自己的这个数据库呢?谢谢。

涂子沛:对个人来说,那当然有很多相关的地方,我想说的第一个相关的地方,就是说数据是知识的载体,你要从数据当中发现新的知识,你要重视数据。我们说你去做研究也好,恐怕做现场调查还不如系统的收集数据,获得数据,系统的数据也许比亲身去调查也许还有作用,这是第一。第二呢,数据是隐私的载体,你的个人数据是你的个人隐私,我们说还有这个时代,数据还是个人权利的载体,PM2。5是多少,你是有权利知道的对吧,你的自来水里面各种微生物的含量是多少,各种类金属的元素的含量是多少,这些都是数据。它是成为一个权利的载体,个人跟个人的生活是息息相关的。

观众:涂老师好,主持人好,就是我们毋庸置疑,大数据时代对我们社会生活,商业或者学术方面都有很多的便利,但是美国棱镜门事件也将我们带入了对大数据时代的一种恐

慌。就是我们在这个数据时代,怎样保障您刚才提到的隐私呢?谢谢。

涂子沛:隐私和商业的利益是我们需要一个平衡,在新的大数据时代,但这种平衡在每个社会呢都在形成当中,美国社会也做得不是很好。我们中国社会在这一方面会更糟糕一点,商家为了利益不断侵犯,用数据来侵犯大众的隐私,这就需要整个社会形成一个新的意识,不断地公众不断的去跟商家博弈,整个社会形成新的法律,那商家不能够随便挖掘这个用户的数据,挖不挖应该是由这个用户来说了算,他要对这个数据有主导权,这需要有新的法律,来对这个进行规范,需要立法。

观众:涂老师您好,我是做舆情分析的,我想问一个跟自己工作有关的一个问题,就是因为我们经常要在一个突发事件之后,来预测这个民意的倾向,预测民意的走势,我就想问一下就是我们收集多少数据,您觉得才足以对一个民意做一个相对准确的预测。然后我们大概要分析到什么层次,才能做这样一个预测?还有一个问题就是我看您在书上写这个数据,就是政府对数据的公开是非常重要的,前一段时间,就是国家统计局建立了一个网上的一个数据中心,可以就是免费地去下载一些关于国计民生的,还有经济方面的这种重要的数据。我想问一下您对它这个做法您是怎么看的?然后它现在公布的数据您觉得是否就是您觉得它质量如何、数量如何,我们可以怎样利用这些数据?谢谢。

涂子沛:我想我的建议是需要多元的数据,多个源头的数据,来印证一些民意,而不是单元的。比如说分层次的多元的,不仅仅,比如说你做得最多恐怕是微博的数据对吧,那我们说微博的数据还不够对吧,如果仅仅用微博,大部分用户是年轻的用户对吧,你还得用其他的数据比如说问卷调查、街头访谈,多元的数据来互相印证一个观点,这是第一个。第二个国家统计局在做的这个事情,无疑是符合世界潮流的一个事情,把数据公开开了,开放出来,让大家来使用,我觉得国家统计局还可以做更多的事情,而不仅仅是公开,把原始数据开放出来,举行一些竞赛在高校,调动大家来使用这些数据。

观众:涂老师好,主持人好,我是一名互联网行业的从业者,那么作为互联网行业的话呢,肯定是对信息革命的这个接受程度、开放程度最高的,那么我们也希望您能给大家预测一下,大数据,或者本身这个大数据的革命,在国内能够落地或者能够很好的一个爆发之后,这个需要多长一个时间?也给我们从业者一个鼓励吧,这是第一个问题。第二个问题的话是一个个人行为,就是我们现在可能由于这个数据挖掘等一些水平还不是特别的发达,我们比方在一些电子商务网站网购之后,那可能我本身是一次性购买的行为,但商家不断地给我推送一些他所谓的猜你喜欢的,还是说类似的商品你可能会购买,但是对我已经产生一个困扰,我怎么样能够对我进行一个很好的保护,希望得到您的回答,谢谢。

涂子沛:好,我们先从回答第二个问题起,刚刚说的,就是说在这个时代呢,其实你在获得一些便利,你把自己的数据推出去之后,你的行为被它记录了,它根据你记录的数据来猜你喜欢什么,不断向你推送什么,有些东西确实是你喜欢的,你是得到了便利,但是呢一定程度上又对你形成了骚扰,所以我们说最终这个权利应该把它给到用户当中去。就用户我来决定我开不开放这些数据,你能不能使用这些数据对我进行挖掘,如果我有选择权,我愿意享受这种便利,那你就能挖掘我的数据,我接受你的推送。那这有很多种方式对吧,可以在事前控制也可以在事后控制,事前给你一个选项,事后还可以给你一个选项,你愿不愿意继续接到我们对你的推送,如果取消你不再接到对吧,所以还是基于商家有一种自觉,对这个用户的一种尊重。但是商家的这种自觉跟尊重,我们说不会从天而降对吧,是要大家去说不,当整个社会都说不的时候,当立法者意识到这个问题的时候,新的法律出来的时候,这个问题才能得到最根本的解决。好,那你前面那个问题,我想大数据的落地,其实在中国已经有很多项目在落地了。我相信在五年之内吧,我们能看到越来越多的项目,在遍地开花。

观众:涂老师您好,就是我们曾经探讨过一个有趣的问题,就是我们死了以后,我们QQ怎么办?就是说呢,在这个大数据时代,它的数据的量是非常规模庞大的,那么会不会相应的产生一些数据垃圾?那么这个会对我们实际生活有没有影响?那么这个数据垃圾我们又该怎么面对?怎么办?谢谢。

涂子沛:好,这个问题两个问题,其实第一个问题数据遗产的问题,这都是新的伦理的问题,第二个是数据垃圾的问题。那对数据遗产呢,现在有很多种处理方式,西方国家也在立法,谁能继承你的这个遗产。为什么我们说这个时代是一个革命?因为有很多新的问题在出现,相信这个问题在中国,我们整个社会是迟早要面临的。我们说我们现在的网上聊天用户大多是年轻的一代,但是二十年之后呢,我们是不是应该有这种前瞻性,现在就对这些问题进行思考呢?这显然还没有提上我们国家立法者的议程。

田桐:那么就您看来怎么解决这个问题?

涂子沛:立法,谁能继承?肯定是有第一继承人,有第二继承人,有遗嘱对吧,整个社会要形成一个观念,你的数据是你遗产的一部分,现在已经出现了这些事情了,就是美国就出现这种事情了,有人自杀了对吧,他自杀之后,警方为了了解他自杀的原因对吧,就想去登录他的各个帐号,那警方有没有权利这样做呢?那社交网络给不给他这样干呢?他身边的亲人也都想了解,那他的隐私权在哪里?整个社会我们能看到很多问题。就个人方面,你首先把数据当做你的遗产,然后国家层面、社会层面要制定合适的法律来规范这个问题。

田桐:那么像刚才她说的第二个问题,这些庞大的数据的垃圾,我们应该怎么去处理?

涂子沛:这对商业公司是一个挑战,比如说qq网络聊天工具,我们毫无疑问,它在积累大量的数据垃圾,它可能在公司内部会有一个政策,是多少年对什么样的数据要做出什么样的清理。我们还能看到数据的累积当中它是有一些规律的。我们说有价值的数据,它上升的趋势是比垃圾上升的趋势是要缓慢的,就垃圾数据的这个上升趋势更快。有价值的数据呢上升得更慢,那对这个比如说网络聊天工具,它就要做一些考虑对吧?一种是删除,最简单的方式,还有一种是转移,它转移到更低成本的这个存储器上去。

田桐:感谢您刚才的精彩解答。2013年5月,阿里巴巴董事局主席马云在其卸任演讲的时候说,在我们还没有了解PC的时候,移动互联网来了,在我们还没有了解移动互联网的时候,大数据来了,大数据带给我们的绝不仅仅是一个商业模式或者技术,而是我们开启全新世界的方法论。再一次感谢涂老师的精彩演讲,感谢您收看这一期节目,下一期再见!


相关文章

  • 大数据的概念.特征及其应用
  • 马建光等:大数据的概念.特征及其应用 (2013-09-05 16:15:35) 转载▼ 标签: 分类: 学习资料 杂谈 大数据的概念.特征及其应用 马建光,姜巍 (国防科技大学人文与社会科学学院,湖南长沙410074) 源自:国防科技20 ...查看


  • ERP数据质量评估与数据治理方法研究_苏博
  • ACADEMIC RESEARCHERP数据质量评估与数据治理方法研究 ◆ 苏 博 陈 溯 唐成功 摘要:本文研究了国内企业ERP系统运行过程中所面临的数据质量问题.通过对ERP系统数据质量影响因素的分析,提出了ERP数据质量评估指标体系, ...查看


  • 商业智能技术及应用
  • 商业智能技术及应用 第一章 商业智能 概述 第一章 商业智能概述 企业在生产经营中会产生无数的信息,如订单.库存.交易帐目.通话记录及客户资料等.这些信息蕴藏了丰富的经营理念和市场规律. 怎样有效地利用这些宝贵的信息增进对业务情况的了解,帮 ...查看


  • 数据仓库的基本架构
  • 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).其实数据仓库本身并不 "生产"任何数据,同时自身也不需要"消费"任何的数据,数据来源于外部,并且开 ...查看


  • 数据预处理
  • 数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理.如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算.另外,对于一些剖面测 ...查看


  • 专题·原创|中国信息安全测评中心陈锦:我国大数据发展与信息安全态势
  • 中国信息安全测评中心  陈锦 为全面推进我国大数据发展和应用,加快建设数据强国,国务院制定和发布<促进大数据发展行动纲要>,标志着大数据战略正式上升为国家战略.我国在大数据社会认知.政策环境.产业发展.安全保障等方面取得一定进展 ...查看


  • 新老系统迁移及整合方案
  • 1新老系统迁移及整合方案 本次总局综合业务系统是在原有系统的基础上开发完成,因此,新旧系统间 就存在着切换的问题.另外,新开发的系统还存在与其他一些应用系统,例如,企业信用联网应用系统.企业登记子网站.外资登记子网站等系统进行整合使之成为一 ...查看


  • 指挥信息系统的数据集成研究
  • 指挥信息系统的数据集成问题研究 刘太庆① 李 光 (61906部队,河北 廊坊 065001) 摘 要: 为了更好地实现指挥信息系统的有效融合,达到各种武器装备的无缝连接,必须解决数据集成问题.简要分析了数据集成的顶层设计和共享环境建设问题 ...查看


  • 大数据知识
  • 一.搜索"大数据"关键词,查阅有关"大数据"相关资料,写一篇有关"大数据"的认识及其应用的报告. 1.大数据概念: 大数据(big data),或称巨量资料,指的是所涉及的资料量规 ...查看


  • 数据交换平台.功能白皮书
  • 数字校园系列软件产品 数据交换平台 功能白皮书 目录 1 产品概述 . .................................................................................... ...查看


热门内容