数据科学导引 pdf下载
限时特惠
00:00:00
活动结束后恢复原价
纸质书参考价
¥23
电子版限时价
¥5.99
省 18 元
选择版本
内容简介
本篇主要提供数据科学导引电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
内容简介
《数据科学导引》是博雅大数据学院针对新开设的“数据科学与大数据技术”专业编写的数据科学导论课程教材。
《数据科学导引》内容共分十五章,包括绪论、数据预处理、回归模型、分类模型、集成模型、聚类模型、关联规则挖掘、降维、特征选择、EM算法、概率图模型、文本分析、图与网络分析、深度学习、分布式计算。附录部分对相关的基础知识做了简要介绍。
《数据科学导引》还提供了大量的数据分析实践案例,有助于加深读者对理论知识的理解,及培养其实际应用能力。
《数据科学导引》可作为全国高等学校数据科学相关专业的本科生和研究生教材,也可供从事相关工作的技术人员参考使用。
《数据科学导引》内容共分十五章,包括绪论、数据预处理、回归模型、分类模型、集成模型、聚类模型、关联规则挖掘、降维、特征选择、EM算法、概率图模型、文本分析、图与网络分析、深度学习、分布式计算。附录部分对相关的基础知识做了简要介绍。
《数据科学导引》还提供了大量的数据分析实践案例,有助于加深读者对理论知识的理解,及培养其实际应用能力。
《数据科学导引》可作为全国高等学校数据科学相关专业的本科生和研究生教材,也可供从事相关工作的技术人员参考使用。
作者简介
鄂维南,中国科学院院士,北京大数据研究院院长,北京大学、普林斯顿大学教授,大数据教育联盟理事长。主要从事计算数学、应用数学及其在力学、物理、化学和工程等领域中的应用等方面的研究。1996年获首届美国青年科学家与工程师总统奖。2003年获国际工业与应用数学大会科拉兹奖。2009年获美国工业与应用数学学会克莱曼奖。2014年获美国工业与应用数学学会卡门奖。
欧高炎,北京大学北京国际数学研究中心博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。大数据教育、服务和竞赛平台“数据嗨客”创始人。
朱占星,北京大学大数据科学研究中心、北京大数据研究院研究员。主要研究方向为机器学习。长期从事人工智能、机器学习、深度学习以及大数据分析方面的研究与应用。
董彬,北京大学北京国际数学研究中心研究员,北京大数据研究院生物医学影像分析实验室副主任,求是杰出青年学者,中组部青年千人。主要研究领域是应用数学、计算数学及其在图像和数据科学中的应用。
欧高炎,北京大学北京国际数学研究中心博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。大数据教育、服务和竞赛平台“数据嗨客”创始人。
朱占星,北京大学大数据科学研究中心、北京大数据研究院研究员。主要研究方向为机器学习。长期从事人工智能、机器学习、深度学习以及大数据分析方面的研究与应用。
董彬,北京大学北京国际数学研究中心研究员,北京大数据研究院生物医学影像分析实验室副主任,求是杰出青年学者,中组部青年千人。主要研究领域是应用数学、计算数学及其在图像和数据科学中的应用。
精彩书摘
《数据科学导引》:
另一种方法是计算每个特征对模型准确率的影响。通过打乱样本中某一特征的特征值顺序,产生新样本。将新样本放入建立好的随机森林模型中计算准确率。对于不重要的特征来说,打乱特征值的顺序对模型的准确率不会产生较大影响。但是对于重要的特征来说,打乱顺序就会极大降低模型的准确率。
这两种特征重要性的计算方法各有利弊,第一种方法对具有更多特征值的特征会更有利。在不同特征的特征值种类有较大区别时会失效,不能用于解释特征的重要性。同时,在特征集合存在的相关性较多的情况下(即其中任何一个特征都可以作为优秀的特征,并且当某个特征被选择之后,其他特征的重要性就会迅速下降),那么第一个被选中的特征重要性会较高,其他的关联特征重要性就会较低。这使在解读特征重要性结果时,错误认为先被选中的特征是很重要的。随机的特征选择方法虽然缓解了但尚未完全解决这一问题,样本的数量对第二种方法的结果有很大影响。
……
另一种方法是计算每个特征对模型准确率的影响。通过打乱样本中某一特征的特征值顺序,产生新样本。将新样本放入建立好的随机森林模型中计算准确率。对于不重要的特征来说,打乱特征值的顺序对模型的准确率不会产生较大影响。但是对于重要的特征来说,打乱顺序就会极大降低模型的准确率。
这两种特征重要性的计算方法各有利弊,第一种方法对具有更多特征值的特征会更有利。在不同特征的特征值种类有较大区别时会失效,不能用于解释特征的重要性。同时,在特征集合存在的相关性较多的情况下(即其中任何一个特征都可以作为优秀的特征,并且当某个特征被选择之后,其他特征的重要性就会迅速下降),那么第一个被选中的特征重要性会较高,其他的关联特征重要性就会较低。这使在解读特征重要性结果时,错误认为先被选中的特征是很重要的。随机的特征选择方法虽然缓解了但尚未完全解决这一问题,样本的数量对第二种方法的结果有很大影响。
……
前言/序言
数据科学是一门新兴学科,它强调培养具有多学科交叉能力的大数据人才。这样的人才应该具有以下三方面素质:一是理论性的,主要是对算法及模型理解和运用的能力;二是实践性的,主要是处理实际数据的能力;三是应用性的,主要是利用大数据的方法解决具体行业实际问题的能力。培养这样的人才,需要数学、统计学和计算机科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。数据科学课程的开设,也需要采用新的模式,即理论课和实践课相结合的模式,就像物理、化学和生物课一样,需要提供相应的实验平台。这样的实验平台应该提供实际问题、实际数据和基本的处理工具。
为了应对在师资能力、课程体系建设、教材的研发,以及教学形式的变革等多方面的挑战,北京大数据研究院牵头成立了博雅大数据学院。其目的是整合相关高校的集体力量,用高质量和最有效的方法建立起数据科学和大数据技术人才培养所需要的基础设施。这些基础设施包括课程体系和教材的建设和研发、实验平台的建设、师资培训、专业课程的建设和共享等。几年来,博雅大数据学院已经逐步建立起了一个完整的大数据课程体系。这些课程分成专业基础课、专业核心课和专业选修课三个模块。专业基础课包括大数据分析的数学基础、大数据分析的Python基础和数据存储等。专业核心课包括数据采集与网络爬虫、数据清洗技术与工具、数据可视化、大数据应用导论、数据科学导引、机器学习和分布式概论等。专业选修课包括深度学习、知识图谱、文本分析、健康医疗大数据、交通大数据和金融大数据等。同时,博雅大数据学院也初步建成了“数据嗨客”(www.hackdata.cn)这个大数据实验和教学辅助平台,受到了广泛的好评。
为了应对在师资能力、课程体系建设、教材的研发,以及教学形式的变革等多方面的挑战,北京大数据研究院牵头成立了博雅大数据学院。其目的是整合相关高校的集体力量,用高质量和最有效的方法建立起数据科学和大数据技术人才培养所需要的基础设施。这些基础设施包括课程体系和教材的建设和研发、实验平台的建设、师资培训、专业课程的建设和共享等。几年来,博雅大数据学院已经逐步建立起了一个完整的大数据课程体系。这些课程分成专业基础课、专业核心课和专业选修课三个模块。专业基础课包括大数据分析的数学基础、大数据分析的Python基础和数据存储等。专业核心课包括数据采集与网络爬虫、数据清洗技术与工具、数据可视化、大数据应用导论、数据科学导引、机器学习和分布式概论等。专业选修课包括深度学习、知识图谱、文本分析、健康医疗大数据、交通大数据和金融大数据等。同时,博雅大数据学院也初步建成了“数据嗨客”(www.hackdata.cn)这个大数据实验和教学辅助平台,受到了广泛的好评。