书籍详情
《 Python数据科学加速:Dask、Ray、Xorbits、mpi4py》[80]百度网盘|亲测有效|pdf下载
  • Python数据科学加速:Dask、Ray、Xorbits、mpi4py

  • 出版社:清华大学出版社
  • 作者:鲁蔚征,秦续业
  • 出版时间:2024-11-01
  • 热度:2456
  • 上架时间:2025-03-08 06:13:50
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

掌握Python分布式计算!从语言概述到核心技术,从集群部署到机器学习、强化学习,全面解析Dask和Xorbits,还有分布式数据预处理与mpi4py的应用。无论你是Python开发者还是数据科学家,本书将带你领略分布式编程的威力,让你在大规模数据处理和并行计算中事半功倍。拓展你的技术领域,加速你的项目进程,成为分布式计算的大师!

 
内容简介

当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。《Python数据科学加速:Dask、Ray、Xorbits、mpi4py》详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。 
《Python数据科学加速:Dask、Ray、Xorbits、mpi4py》面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。 

作者简介

鲁蔚征
毕业于北京大学,目前就职于中国人民大学,曾在互联网公司工作,具有丰富的业界大数据和机器学习工作经验。除此之外,还发表了多篇CCF A类论文,已出版《Flink原理与实践》,并负责过多个产学合作项目。
秦续业
毕业于上海交通大学,前阿里巴巴技术专家,现任未来速度CEO,多款大数据和机器学习开源框架开发者和引领者,其开发的项目Xorbits Xinference等在 GitHub上收获上千星标。

目  录
第1章 并行计算基础1
1.1 现代计算机体系结构 1
1.1.1 CPU 2
1.1.2 网卡 2
1.1.3 异构计算 2
1.2 串行执行与并行执行 2
1.3 线程和进程3
1.3.1 进程与线程 ·3
1.3.2 线程安全 5
1.3.3 全局解释器锁 6
1.4 并行程序设计方法 7
1.4.1 PCAM 7
1.4.2 切分方式 8
1.4.3 案例:MapReduce 8
前  言
我们已经进入智能时代,智能应用层出不穷,数据驱动的理念正在深入渗透到各行各业。无论是金融建模、政府决策还是智能制造,这些领域无一不依赖于大数据和人工智能。Python编程语言已成为数据科学和人工智能领域的事实标准。Python社区提供了大量的数据科学和人工智能库,例如NumPy、Pandas、Scikit-learn、PyTorch等,这些库和框架能够帮助数据科学家高效地进行数据分析和机器学习建模。
然而,一些库主要面向单机场景,难以方便地实现横向扩展。与此同时,数据正以更快的速度和更大的容量产生。以GPT为代表的大模型依赖于大量训练数据进行深度学习,这就需要更强大的计算框架来处理数据预处理和分布式深度学习。过去,大数据催生了许多分布式计算框架,如Apache Hadoop、Apache Spark、Apache Flink,以及最近逐渐流行的Ray等。每一种计算框架都有其特定的使用场景。
早期的大数据计算框架,如Apache Hadoop和Apache Spark,更关注数据预处理、抽取、转化和加载,主要使用Java技术栈。而深度学习社区主要基于Python,这导致了技术栈的分割。随着Python影响力的不断提升,面向分布式人工智能场景计算的一些库不断涌现,包括Dask、Ray、Xorbits等。这些框架都基于Python,解决了Python在大规模分布式计算方面的局限,并与深度学习社区无缝融合。

相关推荐