社交网络和社交媒体已经成为人们生活的一部分,社交网络的本身结构、网络上的行为以及信息传播规律也成为值得研究的重要科学问题。社交网络是一种复杂网络。复杂网络是网络科学研究的基本对象。而社区结构的分析是网络科学研究的基础问题。它的研究随着20世纪末网络科学的兴起而受到众多学者的关注。社区结构分析对深入理解社交网络的结构特征、进一步分析社交网络中的群体行为、认识和建模社交网络上信息的传播过程有着重要意义。本书就是针对这个问题,从问题分类、方法及技术多方面总结社区结构发现与演化分析的研究成果。
本书包括四个方面的内容:第一,基础知识,是全书基础性章节,对相关章节涉及的基础知识和核心技术进行初步介绍与总结,包括第1、2、9章,分别是引言、基础知识和总结。第二,相关算法,以时间为序介绍社区发现算法和演化分析方法的研究成果,包括第3、4、5章。第三,相关具体技术,介绍社区结构分析算法在大数据技术框架下的快速实现技术以及相关的评测技术,包括第7、8章。第四,扩展性介绍,介绍社区结构分析算法在社交网络分析其他相关问题的扩展与应用,包括第6章。
基础知识:第1章介绍在网络科学兴起的大背景下,虚拟社区发现与演化问题研究的简要发展过程,介绍虚拟社区发现与演化主要涉及的研究问题以及研究方法。并解析本书的各章结构与关联。第2章介绍本书涉及的一些基础知识,主要是图论中的基础概念和网络科学的一些基础知识,包括图的分类与表示、图的性质与路径、复杂网络模型、社区发现基本概念、算法分类、算法评估方法与标准数据集等。第9章针对社区发现与演化问题总结全书内容,并展望未来的相关研究。
相关算法:第3章和第4章介绍各类社区发现算法。第3章介绍的是早期的算法,从图聚类、模块度目标优化、概率论与信息论、物理模型等角度归纳社区发现的研究成果。第4章介绍近5年的算法,分别从重叠社区发现、异质网络社区发现、属性网络社区发现等角度总结近年来社区发现的研究进展。第5章介绍社区演化分析方法,包括问题定义、典型分析算法与框架以及评估方法。
相关具体技术:第7章在介绍目前主流的图计算并行框架的基础上,总结大数据技术背景下复杂网络数据快速社区发现计算方法。第8章是应用与开发章节,介绍专门用于社区发现算法评价的评测平台,涉及平台的框架、主要功能模块以及应用方法等。
扩展性介绍:第6章介绍与社区分析相关的网络科学领域其他问题求解的研究进展,即引入社区分析角度对社会化推荐问题(排名)、知识图谱构建问题、链接预测、网络视频数据分析等问题的研究成果。
本书系统全面地总结复杂网络研究兴起以来社区发现与演化问题的研究进展。本书不仅详细介绍经典的分析算法,而且综述近年来新的研究进展。一方面介绍传统的单机运行算法,另一方面介绍基于当前主流图并行计算框架的快速大规模图分析方法。本书以社区分析算法为核心,扩展介绍相关方法的交叉应用以及评测系统平台。本书是一本兼顾社区分析算法基础理论和方法实际应用的、内容丰富的参考书。
国家重点基础研究发展计划(973计划)于2013年设立了“社交网络分析与网络信息传播的基础研究”项目。项目从社交网络本身的结构特性、社交网络中的群体及其行为、社交网络中的信息及其传播三方面展开研究。虚拟社区发现与演化是其中一个重要研究课题。本书的写作主要由承担此项目课题“虚拟社区发现与演化”研究任务的相关单位教师与学生完成。该课题由北京邮电大学、国防科技大学、中国科学院计算技术研究所、北京大学四个单位共同承担。书中介绍了此课题研究过程中的一些成果。
由衷感谢为本书写作及出版提供实质性贡献的诸位老师和同学。北京邮电大学的数据科学与服务中心的老师和同学为本书的出版提供了基础材料和初稿。他们是:石川教授、贾丙静、吕金娜、郑玉艳、陈晓纪、张孟昊、王琳、孟琳、尹丁艺、郭谦、吴心宇、张子兴、佟雪松、戴唯、彭程程、曹桢、庄楠、周尧棋、王耀和林文鼎。特别感谢国防科技大学的周斌教授、黄久鸣老师,中国科学院计算技术研究所的余智华高级工程师、刘盛华副研究员,北京大学的许进教授、蒋飞博士对本书提供的指导与帮助。本书得到了国家重点基础研究发展计划(项目名称:社交网络分析与网络信息传播的基础研究)的支持,在此特别感谢项目首席科学家方滨兴院士和各位专家的指导与帮助。
由于作者水平有限,书中难免存在不足之处,恳请广大读者批评指正。