书籍详情
《 利用Dask扩展Python性能》[76]百度网盘|亲测有效|pdf下载
  • 利用Dask扩展Python性能

  • 出版社:清华大学出版社
  • 作者:[美]霍尔顿·卡劳(Holden Karau) [加]米卡·金明斯(Mika Kimmins) 著 马宏华
  • 出版时间:2024-08-25
  • 热度:2316
  • 上架时间:2025-03-08 06:13:50
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

Dask 是一个使用 Python 进行并行计算的框架,使得并行计算可以从一台机器上的多
个核心扩展到拥有数千台机器的数据中心。它具有低级任务 API 和更高级别的以数据为
中心的 API。低级任务 API 支持 Dask 与各种 Python 库的集成。拥有公共 API 使得工具
生态系统能够围绕 Dask 得以发展,以适应各种用例。

 
内容简介

《利用 Dask 扩展 Python 性能》详细阐述了与 Dask 扩展 Python 性能相关的基本知识,主要包括了解 Dask、Dask 基础操作、Dask
的工作原理、Dask DataFrame、Dask 的集合、高级任务调度、添加可变状态和 Dask Actor、评估 Dask 的
组件和库、迁移现有的分析工程、使用 GPU 和其他特殊资源的 Dask、使用 Dask 进行机器学习、生产化
Dask 等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和
参考手册。

作者简介
Holden Karau 是 Apache Spark 提交者,Apache 软件基金会成员,也是活跃的开源
贡献者。作为一名软件工程师,她曾在 Apple、Google、IBM、Alpine、Databricks、Foursquare
和 Amazon 从事各种分布式计算、搜索和分类问题的研究。她毕业于加拿大滑铁卢大学
(University of Waterloo),获得过计算机科学数学学士学位。在软件之外,她还喜欢焊
接、骑车和跳舞等。
Mika Kimmins 是一名数据工程师、分布式系统研究员和机器学习顾问。她曾是 Apple
公司的 Siri 数据工程师,也曾是一名学术研究人员和非营利工程人员,她从事过自然语
言处理(NLP)、语言建模、强化学习和机器学习管道等多种工作。她拥有哈佛大学工
程科学硕士和 MBA 学位,以及加拿大多伦多大学(University of Toronto)计算机科学和
目  录
第1章 了解Dask 1
1.1 需要使用Dask的理由 1
1.2 Dask在生态系统中的定位 2
1.2.1 大数据 3
1.2.2 数据科学 3
1.2.3 并行分布式Python 4
1.3 Dask社区库 5
1.3.1 加速Python 5
1.3.2 SQL引擎 5
1.3.3 工作流程调度 6
1.4 Dask的局限性 7
1.5 小结 8
第2章 Dask基础操作 9
2.1 本地安装Dask 9
前  言
我们为熟悉Python和pandas的数据科学家和数据工程师编写了本书,因为他们都有处理比当前工具允许的更大规模的数据的需要。有些PySpark用户会发现本书中的部分资料与他们现有的PySpark知识重叠,但我们相信本书仍然会对他们有所帮助,这不仅仅是为了摆脱Java虚拟机(Java virtual machine,JVM)。
本书主要关注数据科学和相关任务,因为我们认为这是Dask最擅长的领域。如果你遇到Dask似乎不太适合解决的更一般性的问题,建议考虑使用Ray,这是一个用于扩展和分发Python和机器学习应用的框架。
关于责任的说明
俗话说,“权力越大,责任越大”。Dask和类似工具使你能够处理更多数据并构建更复杂的模型。重要的是不要仅仅为了数据好看而收集数据,而是要停下来问问自己,在模型中包含新字段是否可能会对现实世界产生一些意想不到的影响。例如,你在网络上随便搜索一下,就能看到很多用心良善的工程师和数据科学家无意中构建了具有毁灭性影响的模型或工具的故事,如增加了对少数族群的审计,或者不知不觉地在词嵌入(一种将词的含义表示为向量的方法)中产生了基于性别的歧视等。有关详细信息,你可以访问以下网址:

相关推荐