袁卫 中国人民大学中国调查与数据中心主任,曾任中国人民大学常务副校长。现任第六届国务院学位委员会应用经济学学科评议组、统计学学科评议组召集人,教育部社会科学委员会委员、中国统计教育学会副会长兼高校分会会长、全国应用统计专业硕士教育指导委员会常务副主任。 中国拥有数据资源优势 记者:对于老百姓而言,大数据还是个新词汇,能否介绍一下大数据产生的时代背景以及目前国内外研究、应用的状况? 袁卫:在上世纪80年代初,就已经有了大数据的概念和相关应用,但是它深入社会和百姓的视野,则是最近几年的事情。2012年,美国政府由白宫牵头,启动了一个“大数据发展计划”,这个计划的推出被视为进入大数据时代的标志性事件,其重要性堪比1992年美国政府推出的“信息高速公路计划”(被视为进入网络时代的标志)。在相似的时间,欧盟各国陆续开放了很多政府数据,日本也启动了一个大数据项目,联合国2012年发布大数据报告,全球掀起了大数据研究和应用的热潮。 大数据的发展,是以网络和计算机技术的高速发展为依托的。1965年英特尔创始人之一的摩尔先生提出,未来的网络计算机发展,大体上每隔1年到2年,等面积集成电路中的晶体管数量将会增加一倍,即计算速度会提高一倍,同等的计算,成本会降低一半。经过近50年的实践,验证了摩尔先生的预测,也就是人们常说的“摩尔定律”。计算机和网络科技的高速发展,使得大量网络数据,包括音频的、视频的、图片的、文本的各种各样的数据,得以保存,并转化为我们可以深入分析的数据。于是,大数据的研究和应用也就水到渠成了。 记者:在大数据这个领域,我们和发达国家的差距大吗? 袁卫:上世纪八九十年代,我们在很多科技领域和国外差距很大,但是进入联网时代以后,这种状况逐渐改观。进入大数据时代,我们可进一步缩小与美国等科技发达国家的差距,甚至具有后发优势,原因有三个方面:其一,在互联网时代,各种最先进的技术可以快速传播,基本上可以做到全球同步;其二,和微软的操作系统等软件不同,大数据绝大多数软件是开源的,很多网络技术也是公开的,中国的科学技术与教育工作者,只要具有足够的智慧和能力,完全可以追赶甚至在某个领域超过美国;其三,我们在数据资源上具有优势。中国有13.5亿人,13.5亿个活动主体组织了各种社会经济关系,建立起各种社会、网络联系,在各种社会经济活动中产生大量的数据,这些数据是可以充分挖掘的资源。我们起步稍晚,但是具有后发优势,在某些领域甚至可以达到国际先进水平,比如中国推进的智慧城市建设就很不错,还有微信社交平台、阿里小贷等,体现了中国的特色。 统计学科迎来“最好的时期” 记者:您是统计学方面的权威专家。在您看来,大数据对于统计学的发展有何影响? 袁卫:统计学就是数据科学,大数据对统计学的发展影响巨大。我个人认为,大数据对于统计学的发展,既是机遇又是挑战。 说它是机遇,是因为大数据研究和应用会带来大量人才需求,这对统计学的发展是一个巨大的利好,可以说,目前统计学发展正处于历史上最好的时期。这几年,从全国范围看,统计学专业毕业生就业状况都不错,今后会更好。 说它是挑战,是因为大数据可能部分颠覆传统的统计方法。比如有人认为,传统的统计方法讲究抽样,但是大数据使得我们可以对接近总量的数据进行分析,这样进行抽样调查的需求就会减少;还有人认为,传统的统计分析注重因果关系,但大数据情况下,只需明确两者之间有关系即可。另外,过去强调分析的准确性,而在大数据情况下,允许存在一定的误差,等等。 我认为,大数据对统计学带来的上述挑战确实存在,但是不会导致传统抽样调查的需求减少。因为大数据虽然数据量很大,但绝大多数情况下这些大样本都不是随机的,推断总体都有系统偏差,因而抽样调查等统计方法仍然是不可取代的。此外,在很多时候,科研和商业应用、科学决策还是需要进行准确的统计分析的。 从人才培养的角度看,统计学在教学内容、教学方法、人才培养模式等方面需要进行变革,以适应大数据时代的人才素质要求,这是统计学科发展面临的另一挑战。 大数据应用是把双刃利剑 记者:大数据在商业以及城市安全防范等领域已经有很多应用的成功案例,大数据将会给教育领域带来怎样的变革? 袁卫:大数据将对教育产生非常深远的影响。目前可以预见的,我想主要有两个方面:一是通过大数据,分析学生成长环境、兴趣爱好、能力特长等,有利于教育者对学生加深了解,有利于因材施教,使得根据学生个人兴趣、特长、能力进行个性化教育成为可能;二是带来教学内容、教学方式方法上的改变,立体化教学、案例教学、互动教学等方式的运用使得教学更加生动,MOOCs(慕课)就是大数据时代教学变革的一个例子。大数据可以促进全世界优质教育资源共享,发挥每个教师的优势特长。大数据将对教育产生一系列的深远影响,不可低估。 记者:但是,大数据的广泛应用,可能会导致侵犯他人隐私的情况发生,对此您怎么看? 袁卫:在大数据时代,个人的相关数据信息轻易可得,个人隐私越来越不安全。其实不仅仅是个人隐私,包括国家安全和企业的商业机密,也受到很大的威胁。怎么办?我认为对于国家而言,一方面要积极推进数据对外开放,凡是不涉及个人隐私、国家安全和商业机密的数据,都应该公开,这样才能避免形成数据孤岛,充分发掘和利用数据资源;另一方面,在开放数据的同时要加强相关立法,这两个方面是互相补充的,只有这样,才能赶上时代发展的步伐,充分发挥我们这个人口大国、经济大国的数据资源优势。 从个人的角度讲,要加强个人信息防护意识,在上网发布相关信息时,要了解哪些是可以发的,哪些是不能发的,以免给自己带来困扰。 两个“交叉”探索人才培养之道 记者:据了解,中国人民大学、北京大学、中国科学院大学、中央财经大学和首都经贸大学5所高校组建了一个协同创新平台,以“应用统计专业硕士”为载体培养大数据分析方面的人才。为何要采取这种多校合作的培养模式? 袁卫:之所以采用这种协同创新、5校合作的培养模式,完全是由大数据人才的特点决定的。第一个特点,大数据人才是多学科交叉型人才,不是某一个学科可以单独培养的。大家知道,现在进行数据分析,要有数据库和软件等计算机方面的知识,还要有数学和统计方面的知识和能力。这就涉及到中国学科体系中“统计学”和“计算机科学与技术”两个一级学科。培养出的毕业生到了单位,可能还需要财经、新闻、生物医学和管理等方面的知识。所以,大数据人才的培养,也需要计算机、统计学、数学等多学科共同参与。 第二个特点,这是一类应用型人才,必须重视实践环节。他们毕业后不是去做研究,而是投身业界,要能很快上手。这样的人才培养,不是仅在学校、在实验室、研究室里就能够培养出来的,而是要到实践中去,解决实际问题。因此,这个协同创新平台,不仅有5所高校参与,还有人民日报、新华社、中央电视台等十余家媒体,中国移动、中国电信、中国联通、百度、阿里巴巴、腾讯等大数据公司和用人单位,包括云计算的一些基地共同参与,是一个“政、企、产、学、研”一体的人才培养平台,也就是说,人才培养环节是交叉的。 还有一点需要指出,为什么把人才培养的层次定位于硕士?目前全国有200多所本科院校开设统计学专业,75所高校设有统计学博士点,78所高校开办“应用统计硕士”专业学位。在大数据时代,我们改革最急需的人才是硕士层次的,正好我们有“应用统计专业硕士”这样一个新的专业学位,利用这样一个协同创新平台来培养大数据人才,也与专业学位的改革精神相一致。 记者:这个大数据人才的培养方案,如何体现出“两个交叉”? 袁卫:5所学校参与培养,就是出于学科交叉的考虑。中国人民大学统计学院的学科、专业设置是综合的、应用的,理论和应用兼而有之,应用领域涉及卫生、健康、经济、社会、管理等,总体实力较强。而北京大学和中国科学院大学,大家都知道,他们在计算机、数学和统计理论研究方面相当强,掌握大数据分析技术的前沿。中央财经大学和首都经贸大学是财经类为主的院校,这两所学校侧重于应用人才的培养,特别是面向经济、管理、社会这样的领域。他们和很多行业企业、金融机构有着密切联系。这5所高校分别属于教育部直属高校、中国科学院的高校和地方高校3种类型,各有特色,优势互补,能够建成一个很好的、学科交叉的人才培养协同体。 培养环节的交叉,主要体现在企业、用人单位的参与上。上面提到,有这么多的大数据企业、媒体单位参与合作。他们把实际工作中遇到的问题带来,大家一起研究解决;他们把企业运作过程中产生的大数据拿过来,学生直接用这些真实的数据进行训练和研究。 记者:据了解,对这批大数据人才的培养,将采取团队教学的方式? 袁卫:我们经过多次研讨,并参考了美国顶尖的20所大学大数据人才培养的方案和课程,确定了“大数据分析计算机基础”、“大数据分析统计基础”、“大数据分布式计算”、“大数据挖掘与机器学习”、“非结构化大数据分析”和“大数据建模案例研究”6门必修核心课程。每门课程不是由一位老师来上,而是一个教学团队,5所学校各选一名最优秀的教师,然后5位老师一起研究一门课程、同上一门课程,而且还有大数据企业的专家参与。初步估计,每门课程的教学团队会在10个人左右。教学方式也有别于传统的课堂讲授,会采取案例教学和讨论班的方式,也可能是一个团队共同完成一个项目。我们还采取双导师制,两位导师一位来自大学,一位来自企业界,50名学生,就有100名导师。在这个协同创新机制里,还有一个特点,就是采取个性化的教学方式,从生源来看,首批学生主要来源于计算机和统计两个学科,计算机专业背景的本科生进来以后,将重点加强统计分析能力的培养,而统计、数学、物理等专业背景的本科生进来后,将重点加强计算机、大数据软件等方面的学习。 “黄埔一期”的历史使命是探路 记者:目前国内大数据方面的人才供求情况如何? 袁卫:2012年美国麦肯锡咨询公司提供了一份报告,对美国大数据人才需求进行了分析。他们把大数据人才分为两类,一类叫做“数据经理或数据工程师、数据分析师”;另一类叫做“数据科学家”。数据科学家熟练掌握计算机、统计、经济管理等技能,能够领导团队从海量数据中找出规律,发现知识,做出决策,创造价值。根据麦肯锡的报告,到2018年,美国数据分析师的人才需求将达150万人左右,高层次的数据科学家的需求缺口在14-18万人。中国的情况,目前在百度、阿里巴巴、京东等电子商务企业和腾讯等网络媒体大数据公司中有一些大数据方面的人才,但是能称得上大数据科学家的人才,非常非常少。我国相关部门预计3到5年内,来自政府、媒体、企业等方面的数据工程师和数据分析师的需求将达100万人左右,而目前的人才培养,无论是规模还是质量水平,都远远达不到要求。 记者:首批50人的培养计划,只是一个试点探索。对于大规模培养大数据人才,您有什么建议? 袁卫:在大数据时代,数据分析,越来越成为我们工作生活中一个最基本的技能。大数据人才的培养,正是基于这样一个时代的发展背景。大数据人才的适用领域非常广泛,有着巨大的社会需求。他们的就业,遍及生物、医学、经济、社会、媒体、金融、教育、政府各个方面,只要有数据的地方,他们都可以施展才华。这个实验班,其意义在于探索一种新的人才培养模式。如果实践证明比较成功的话,我们“应用统计硕士专业学位教育指导委员会”会推动在全国推广,比如上海的一些学校今年就希望送学生来学习。将来大城市的一些高校,完全可以参考我们这个实验班的模式。现在全国有78所高校开办应用统计专业硕士,他们绝大多数都有条件开展类似的人才培养,都可以进行积极探索,相关企业参加的积极性也非常高。 记者:对于“黄埔一期”的这50名幸运儿,您有什么期待? 袁卫:我希望他们毕业后,到用人单位经过几年的锻炼,能够主管大数据研究项目或大数据分析部门,成为数据科学家这个层面的高级人才。这类高层次的大数据人才是国家最紧缺的。探索培养高层次大数据人才的路径、满足国家日益增长的需要,这是中国人民大学等五校组建大数据人才培养协同创新平台的目标和使命。 【大数据应用案例】 PRADA的试衣间 PRADA(普拉达,一个意大利的奢侈品牌)在纽约的旗舰店中每件衣服上都有RFID(射频识别)码。每当一个顾客拿起一件PRADA衣服进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间,停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的做法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,也许这件衣服的下场就会截然不同,也许对某个细节作微小改变就会重新创造出一件非常流行的产品。 中国的粮食统计 中国的粮食统计是一个老大难的问题。传统的统计办法,依靠统计人员层层上报,水分很大,数据的真实性令人怀疑。在前两年北京的一次会议上,原国家统计局总经济师姚景源讲述了他们是如何进行粮食统计的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标示、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。 公安部门的“犯罪地图” 作为2014年亚太经合组织(APEC)领导人非正式会议的举办地,北京市怀柔区警方通过运用大数据、云计算和科学分析模型,整合历年案件信息,建立了犯罪数据分析和趋势预测系统,能够预测犯罪趋势,指导警力投入。这套系统共收录了怀柔区近9年来1.6万余件犯罪案件数据,通过标准化分类后导入系统数据库,同时采用地图标注,将怀柔分成16个警务辖区,抓取4700余个犯罪空间坐标,实施空间网格编号。 通过对越来越多数据的挖掘分析,某一区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。 |