本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&CEO联合作序推荐
大数据包罗万象,谷歌大数据平台技术独具匠心,站在全局高度析缕分条,让你不再迷失,能快速得其门而入
本书是大数据实战用书,包含大量真实案例、实际代码、详细解决方案。
掌握大数据成功及避开常见陷阱的4个指导原则
强调协作,避免数据孤岛带来的问题
高效且经济地托管和共享数TB的数据集
“为未来而构建”以支持快速增长
使用Redis开发NoSQL Web应用来收集众包数据
使用Hadoop、Hive和Shark在大数据集上运行分布式查询
使用Google BigQuery构建数据信息面板
使用高级可视化技术探索大数据集
实现高效流水线以转换海量数据
使用Apache Pig和Cascading库将复杂处理过程自动化
运用机器学习方法进行分类、推荐及预测
使用R语言统计分析大数据集
建立合理的采购策略:何时选择自制、购买或外包
使用Python和Pandas构建高效分析工作流
展望可伸缩数据技术的新趋势及数据科学家的角色演变
海报:
这是一个数据爆发的时代,更是一个数据技术爆发的时代,各行各业都在因此进行深刻的变革。如何从众多的数据技术中选择正确的工具、如何使用这些工具从海量数据中挖掘出有价值的东西,无疑是非常具有挑战性的问题。
《寻路大数据:海量数据与大规模分析》作者结合自己在Google 大数据平台工作的丰富经验,阐述了数据技术的方方面面。从数据收集、共享到数据存储,从分布式数据平台、分析型数据库到数据可视化,从数据工作流构建到大规模数据分析,作者不仅进行了全面而深入的介绍,更覆盖了目前流行的各种数据技术与工具,同时对技术选型提出了指导性的建议。最后,作者对数据挑战的非技术因素进行了深刻的分析,并对数据技术的发展趋势进行了展望,引人深思。
《寻路大数据:海量数据与大规模分析》对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势,把握时代发展脉搏;数据分析人员可以看到经验的总结和工具的应用;其他从业者可以从中了解数据技术所涉及的各个方面。
Michael Manoochehri,是个企业家、作家和乐观主义者。凭借自己与企业、研究机构和非营利性机构多年的合作经验,他力图让可扩展数据分析变得更加廉价和易获取。Michael 是Google 云平台开发者关系组的成员之一,关注云计算和数据开发者产品,例如Google BigQuery。此外,Michael 是技术博客ProgrammableWeb.com的作者之一,曾在乌干达农村地区研究移动电话的使用,拥有UC Berkeley 信息学院的信息管理与系统文学硕士学位。
陈冠诚,并行实验室创建者。在导师Prof. Per Stenström指导下完成硕士毕业设计“关于并行程序中锁竞争的性能分析”。2011年加入IBM中国研究院系统组,从事云计算系统架构、海量数据处理等相关研究工作。
大规模数据分析几乎对所有行业都极其重要。移动和社交技术产生了海量的数据集,分布式云计算提供了存储和分析这些数据所需的资源,专家们掌握着全新的技术,其中包括NoSQL数据库。但是迄今为止,关于“大数据”的大部分书籍只不过是业务争论或者产品目录。本书则不同:它是每个大数据决策者、实施者和战略制定者必不可少的实战指南。
Michael Manoochehri是一个前Google工程师和数据骇客,他为那些需要低资源消耗和时间开销的实用方案的专业人员写作了本书。借助其广博的知识,作者帮助您专注于构建应用而不是基础设施管理,因为这样您才能从中获得大的价值。
作者展示了如何结合使用不同的技术经济、有效地解决关键的大数据用例。您将看到进行海量数据集管理、数据可视化、数据流水线和信息面板构建、统计分析工具选择等的专业方法。纵观本书,作者演示了目前先进的数据分析工具的使用技巧,其中包括Hadoop、Hive、Shark、R、Apache Pig、Mahout和Google BigQuery。
对数据进行采集、存储和分析的工具种类非常繁多,而且新的工具还在不断涌现。对于刚进入这个领域的新人来说,这往往意味着需要浏览众多网站和相关书籍才能对大数据处理的基础知识有个基本的了解。正因如此,这本书成为 Addison Wesley 数据分析(Data & Analytics)丛书的一个有力补充 :本书对构建大数据分析系统的工具、技术和实用技巧进行了全面的介绍。
Michael 是介绍大数据分析的人选,他曾在 Google 的云平台开发者关系组工作,帮助开发者使用 BigQuery(Google 的 TB 级数据分析平台)进行大规模数据分析。他将自己在大数据领域广阔的知识面带到了这本书中,为刚接触大数据的人和寻求建议、技巧和工具的人提供了非常实用的实战指南。
本书从大数据系统的成功应用开始介绍,之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后,又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。在书的结尾,读者会看到将Python 和 R 整合到大数据工具链中的实际案例。本书大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍,本书绝对是不二之选。
——Paul Dix