近年来,大数据引起了政府部门产业界、科技界与学术界的高度关注。2008 年 9 月,Nature杂志发表了文章Big Data: Science in the Petabyte Era,“大数据”这个词开始广泛传播。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”。在此基础上,美国又于2016年5月发布了《联邦大数据研究与开发战略计划》(以下简称《计划》),其目标是对联邦机构的大数据相关项目和投资进行指导。中国政府于2015年9月发布了《促进大数据发展行动纲要》,明确指出:坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。
目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。与此同时,大数据产业也随之蓬勃发展,市场研究公司Marketsand Markets公布的报告显示,2013—2018年,全球大数据市场的年复合增长率预计为26%,将从2013年的148.7亿美元增长至463.4亿美元。中国大数据产业起步晚,发展速度快。2014 年,中国大数据市场规模达到767亿元,同比增长了27.8%。预计到 2020 年,中国大数据产业规模将达到 8228.81亿元。
同时,我们还必须清晰地认识到,当前大数据还处在快速成长期。科学研究、技术开发与产业应用都处在探索阶段,缺乏科学的标准,企业也缺乏明确的评价指标,与成熟产业健康有序发展还有距离。目前大数据产学研均存在一定的炒作和泡沫,遍地开花的大数据产业园、大数据项目和投资,几乎无人不谈大数据,不同专业的学者均会做有利于自己的大数据解释,各类企业纷纷高举大数据的旗帜吸引投资,经过技术炒作周期,大数据已经成为了民众的科学常识。盲目的炒作与投资实际上违背了大数据的科学发展规律,对大数据产学研的健康发展是极其不利的。
大数据涉及方法论层面的哲学思考,也包括大数据的架构、平台、存储与硬件等基础性平台,同时还包括了大数据处理、挖掘、分析与可视化等大数据技术;从数据形态上,大数据又分为结构化大数据与非结构化大数据,从媒体形态上,还包括了大数据文本、语音、视频等;大数据的应用则更加宽泛。国内的大数据论著侧重于大数据处理的分布式架构方面,如Hadoop、Spark等平台;而且大部分书籍重在阐述大数据思维,如英国牛津大学的维克托?迈尔—舍恩伯格教授的《大数据时代》、涂子沛的《大数据》。但是,还缺乏大数据相对综合而又理性权威的论述著作。
2015年初,笔者组织创立了中国大数据千人会,吸引了国内外大数据政产学研相关的专业人士数千人,并邀请了国内外一线的大数据专家在线演讲,先后做了30多期(后因工作繁忙,很遗憾未能持续进行)。为凝练整理多期的访谈成果,笔者从所有演讲中优中选优,邀请了14位大数据产学研有影响力的专家学者,将演讲稿进一步凝练,各负其责,每位专家一章,只写自己专注研究的部分,要求去除水分只留干货,综合写作了《大数据大家谈》?书名隐含两层意思,一方面指的是本书由大家一起写作,非一家之言;另外一方面每章的写作者基本上都是大数据特定方向上有影响力的“大家”。
本书主要包括四个部分,分别是大数据综述、大数据思维、大数据技术与大数据应用。第一部分大数据综述由北京理工大学商建云执笔,对大数据的概念、背景、技术与国内外政策等进行介绍,让我们对大数据有个全景式的了解。第二部分大数据思维分别由两位杰出的大数据实践者与思想家完成。驭势科技CEO吴甘沙先生写作的《大数据的开放式创新》,提出了开放的数据、基于数据安全流通和定价的数据市场、开放的基础设施、开放的社会化分析服务、跨越领域界限的开放数据思维五点大数据创新过程;吴甘沙先生是英特尔中国研究院前院长,笔者有幸聆听过他关于大数据的开放式创新的演讲,确实脑洞大开。财讯传媒集团首席战略官段永朝对互联网与大数据有过很多冷静的哲学思考,也是网络智酷的发起人,定期的沙龙吸引了大量的专家学者,他所写作的《流动的大数据》一文,延续了段总的深入思考。第三部分大数据技术分别由北理工刘驰教授、北理工张华平副教授、河北大学的高凯教授、中国传媒大学沈浩教授、中国科学院计算技术研究所的曹娟博士分别介绍了大数据平台架构、大数据语义分析、情感分析、大数据可视化、多媒体搜索分析等当前的技术热点。第四部分大数据应用主要是介绍大数据的落地实践,我们分别邀请了清博大数据的郝雅婕、上海证券交易所的白硕研究员、美国律商联讯风险信息公司吕晓辉博士、北京师范大学张洪忠教授、大象金服研究员梅其文、北京第二外国语学院邓宁博士六位做学术与产业的专家分别就新媒体、企业大数据基础设施、金融行业应用、大数据传播第四范式、金融大数据等话题介绍了各种的实践总结分析。
在本书的策划写作过程中,得到了不少专家学者的指点与参与,同时也通过大数据千人会公众号收集了几百万感兴趣的读者反馈。在这里,特别感谢互联网实验室的方兴东博士的前期倡议,感谢北京理工大学黄河燕教授、赵燕平教授,以及大数据搜索与挖掘实验室潘红岩、徐程程、吴松泽、张亚男等多位同学的前期工作。同时,我们还要感谢电子工业出版社的李敏博士的精心编辑与整理。最后,还要感谢我的太太曾飞和孩子的支持。
本书作为大数据的跨界融合之作,希望提供更多视角,以更严谨务实的方式为各位朋友提供冷静的思考。水平有限,敬请批评指正。
张华平
2016.9