本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
书[0名0]: | [0大0]数据架构[0商0]业之路:从业务需求到技术方案|4946918 |
图书定价: | 69元 |
图书作者: | 黄申 |
出版社: | [1机1]械工业出版社 |
出版日期: | 2016/5/1 0:00:00 |
ISBN号: | 9787111535287 |
开本: | 16开 |
页数: | 298 |
版次: | 1-1 |
作者简介 |
黄申,博士,毕业于上海交通[0大0][0学0]计算[1机1]科[0学0]与工程专业,师从俞勇教授。微软[0学0]者,IBMExtremeBlue天才计划成员。长期专注于[0大0]数据相关的搜索、推荐、广告以及用户精准化[令页]域。曾在微软亚洲研究院、eBay中[0国0]、沃尔玛1号店和[0大0]润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇[0国0]际论文和10多项[0国0]际专利,兼任《计算[1机1]工程》期刊特邀审稿专家。因其对业界的[卓1越]贡献,2015年获得美[0国0]政府颁发的“美[0国0]杰出人才”称号。 |
内容简介 |
目前[0大0]数据技术已[纟巠]日趋成熟,但是业界发现与[0大0]数据相关的产[0品0]设计和研发仍然非常困难,技术、产[0品0]和[0商0]业的结合度还远远不够。这[1主1]要是因为[0大0]数据涉及范围广、技术含量高、更[亲斤]换代快,门槛也比其他[0大0]多数IT行业更高。人们要么使用昂贵的[0商0]业解决方案,要么花费[1巨1][0大0]的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的[0大0]数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻[0大0]数据的奥秘。书中[0会0]覆盖较广泛的技术点,并[扌是]供相应的背景[0知0]识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。 |
目录 |
推荐序一 推荐序二 前言 [0第0]1章 抉择1 [0第0]2章 数据收集4 2.1 互联网数据收集4 2.1.1 网络爬虫5 2.1.2 Apache Nutch简介11 2.1.3 Heritrix简介14 2.2 内部数据收集15 2.2.1 Apache Flume简介17 2.2.2 Facebook Scribe和Logstash21 2.3 本章心得21 2.4 参考资料22 [0第0]3章 数据存储23 3.1 持[1久1]化存储23 3.1.1 Hadoop和HDFS25 3.1.2 HBase简介28 3.1.3 MongoDB35 3.2 非持[1久1]化存储37 3.2.1 缓存和散列37 3.2.2 Memcached和Berkeley DB简介41 3.2.3 Redis简介41 3.3 本章心得44 3.4 参考资料44 [0第0]4章 数据处理46 4.1 离线批量处理46 4.1.1 Hadoop的MapReduce47 4.1.2 Spark简介52 4.1.3 Hive简介53 4.1.4 Pig、Impala和Spark SQL56 4.2 [扌是]升及时性:消息[1机1]制58 4.2.1 ActiveMQ简介60 4.2.2 Kafka简介61 4.3 在线实时处理63 4.3.1 Storm简介63 4.3.2 Spark Streaming简介66 4.4 本章心得66 4.5 参考资料67 [0第0]5章 信息检索69 5.1 基本理念70 5.2 相关性70 5.2.1 布尔模型70 5.2.2 基于排序的布尔模型71 5.2.3 向量空间模型74 5.2.4 语言模型75 5.3 及时性77 5.4 与数据库查询的对比81 5.5 搜索引擎82 5.5.1 Web搜索中的链接分析83 5.5.2 电子[0商0]务中的[0商0][0品0]排序86 5.5.3 多因素和基于[0学0]习的排序88 5.5.4 系统框架89 5.5.5 Lucene简介93 5.5.6 Solr简介98 5.5.7 Elasticsearch简介104 5.6 推荐系统108 5.6.1 推荐的核心要素109 5.6.2 推荐系统的分类110 5.6.3 混合模型115 5.6.4 系统架构116 5.6.5 Mahout116 5.7 在线广告119 5.7.1 在线广告的类型120 5.7.2 广告投放[1机1]制124 5.7.3 广告的拍卖[1机1]制125 5.7.4 广告系统架构126 5.8 本章心得127 5.9 参考资料128 [0第0]6章 数据挖掘130 6.1 基本理念131 6.2 数据的表示和预处理133 6.2.1 数据的表示133 6.2.2 数据的预处理135 6.3 [1机1]器[0学0]习算[0法0]136 6.3.1 监督[0学0]习—分类137 6.3.2 监督[0学0]习—回归152 6.3.3 非监督[0学0]习—聚类153 6.4 挖掘工具157 6.4.1 Mahout简介157 6.4.2 R简介159 6.5 本章心得165 6.6 参考资料165 [0第0]7章 效能[0评0]估167 7.1 效果[0评0]估168 7.1.1 离线[0评0]估169 7.1.2 非离线的[0评0]估183 7.2 性能[0评0]估190 7.2.1 计算复杂度191 7.2.2 应用系统性能193 7.2.3 JMeter工具197 7.3 本章心得202 7.4 参考资料202 [0第0]8章 [0大0]数据技术全景204 [0第0]9章 [0商0][0品0]太多啦!需要搜索引擎207 9.1 业务需求207 9.2 产[0品0]设计和技术选型208 9.3 实现方案211 9.3.1 数据定义和配置211 9.3.2 集群搭建213 9.3.3 DIH配置216 [0第0]10章 能否更[1主1]动?还需要推荐引擎223 10.1 业务需求223 10.2 产[0品0]设计和技术选型225 10.3 实现方案230 10.3.1 基于内容特征的衡量230 10.3.2 基于行为特征的衡量233 10.3.3 [扌是]供在线服务236 [0第0]11章 这样做的效果如何241 11.1 业务需求241 11.2 产[0品0]设计和技术选型242 11.3 实现方案243 11.3.1 行为数据的定义和记录243 11.3.2 Flume和HDFS的集成246 11.3.3 通过Hive进行分析252 11.3.4 Kafka和Storm的集成254 [0第0]12章 这个搜索有点[xun]258 12.1 业务需求:还要搜得更多258 12.2 “还要搜得更多”:产[0品0]设计和技术选型259 12.3 “还要搜得更多”的方案实现261 12.3.1 HBase的部署261 12.3.2 HBase和Solr的集成264 12.4 业务需求:还要搜得更准265 12.5 “还要搜得更准”:产[0品0]设计和技术选型266 12.5.1 [扌是]升搜索排序的相关性266 12.5.2 [扌是]升搜索排序的整体效果268 12.6 “还要搜得更准”的方案实现271 12.7 业务需求:还要更快273 12.8 还要“变”得更快:产[0品0]设计和技术选型274 12.9 还要“搜”得更快:产[0品0]设计和技术选型275 12.10 业务需求:给点[扌是]示吧280 12.11 给点[扌是]示吧:产[0品0]设计和技术选型282 [0第0]13章 支持更高效的运营287 13.1 业务需求:互联网时代的CRM287 13.2 互联网时代的CRM:产[0品0]设计和技术选型288 13.3 业务需求:抓住捣蛋鬼291 13.4 抓住捣蛋鬼:产[0品0]设计和技术选型292 13.4.1 识别分类错放292 13.4.2 识别SEO作弊294 13.5 业务需求:销售之战295 13.6 销售之战:产[0品0]设计和技术选型296 13.6.1 设置合理的价格296 13.6.2 识别黄牛298 后记299 |
编辑推荐 |
作者荣获美[0国0]政府颁发的“美[0国0]杰出人才”称号。[0大0]润发中[0国0]区董事长、飞牛网[0首0]席执行董事黄明端先生与eBay全球零售科[0学0]高级总监逄伟先生作序力荐! 将技术与[0商0]业需求相结合,深入剖析[0大0]数据[0商0]业应用中的困惑与难题,帮助读者更[女子]地掌握技术支撑业务高速发展的方案! |