深度学习精装版 pdf下载
限时特惠
00:00:00
活动结束后恢复原价
纸质书参考价
¥23
电子版限时价
¥5.99
省 18 元
选择版本
内容简介
本篇主要提供深度学习精装版电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
作 者:(美)伊恩·古德费洛,(加)约书亚·本吉奥,(加)亚伦·库维尔 著 赵申剑 等 译
定 价:298
出 版 社:人民邮电出版社
出版日期:2021年04月01日
页 数:528
装 帧:精装
ISBN:9787115552860
1. AI,美亚人工智能和机器学习榜长久不衰的经典书
2. 的3 位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville 撰写
3. 深度学习领域奠基性图书
●
章引言1
1.1本书面向的读者7
1.2深度学历史趋势8
1.2.1神经网络的众多名称和命运变迁8
1.2.2与日俱增的数据量12
1.2.3与日俱增的模型规模13
1.2.4与日俱增的精度、复杂度和对现实世界的冲击15
部分应用数学与机器学习基础
第2章线性代数19
2.1标量、向量、矩阵和张量19
2.2矩阵和向量相乘21
2.3单位矩阵和逆矩阵22
2.4线性相关和生成子空间23
2.5范数24
2.6特殊类型的矩阵和向量25
2.7特征分解26
2.8奇异值分解28
2.9Moore-Penrose伪逆28
2.10迹运算29
2.11行列式30
2.12实例:主成分分析30
第3章概率与信息论34
3.1为什么要使用概率34
3.2随机变量35
3.3概率分布36
3.3.1离散型变量和概率质量函数36
3.3.2连续型变量和概率密度函数36
3.4边缘概率37
3.5条件概率37
3.6条件概率的链式法则38
3.7独立性和条件独立性38
3.8期望、方差和协方差38
3.9常用概率分布39
3.9.1Bernoulli分布40
3.9.2ltinoulli分布40
3.9.3高斯分布40
3.9.4指数分布和Laplace分布41
3.9.5Dirac分布和经验分布42
3.9.6分布的混合42
3.10常用函数的有用性质43
3.11贝叶斯规则45
3.12连续型变量的技术细节45
3.13信息论47
3.14结构化概率模型49
第4章数值计算52
4.1上溢和下溢52
4.2病态条件53
4.3基于梯度的优化方法53
4.4约束优化60
4.5实例:线性小二乘61
第5章机器学习基础63
5.1学习算法63
5.1.1任务T63
5.1.2性能度量P66
5.1.3经验E66
5.1.4示例:线性回归68
5.2容量、过拟合和欠拟合70
5.2.1没有免费午餐定理73
5.2.2正则化74
5.3超参数和验证集76
5.4估计、偏差和方差77
5.4.1点估计77
5.4.2偏差78
5.4.3方差和标准差80
5.4.4权衡偏差和方差以小化均方误差81
5.4.5一致性82
5.5大似然估计82
5.5.1条件对数似然和均方误差84
5.5.2大似然的性质84
5.6贝叶斯统计85
5.7监督学习算法88
5.7.1概率监督学习88
5.7.2支持向量机88
5.7.3其他简单的监督学习算法90
5.8无监督学习算法91
5.8.1主成分分析92
5.8.2k-均值聚类94
5.9随机梯度下降94
5.10构建机器学习算法96
5.11促使深度学习发展的挑战96
5.11.1维数灾难97
5.11.2局部不变性和平滑正则化97
5.11.3流形学习99
第2部分深度网络:现代实践
第6章深度前馈网络105
6.1实例:学习XOR107
6.2基于梯度的学习110
6.2.1代价函数111
6.2.2输出单元113
6.3隐藏单元119
6.3.1整流线性单元及其扩展120
6.3.2logisticsigmoid与双曲正切函数121
6.3.3其他隐藏单元122
架构设计123
.1万能近似性质和深度123
.2其他架构上的考虑125
6.5反向传播和其他的微分算法126
6.5.1计算图127
6.5.2微积分中的链式法则127
6.5.3递归地使用链式法则来实现反向传播128
6.5.4全连接MLP中的反向传播计算131
6.5.5符号到符号的导数131
6.5.6一般化的反向传播133
6.5.7实例:用于MLP训练的反向传播135
6.5.8复杂化137
6.5.9深度学习界以外的微分137
6.5.10高阶微分138
6.6历史小记139
第7章深度学习中的正则化141
7.1参数范数惩罚142
7.1.1L2参数正则化142
7.1.2L1正则化144
7.2作为约束的范数惩罚146
7.3正则化和欠约束问题147
7.4数据集增强148
7.5噪声鲁棒性149
7.6半监督学习150
7.7多任务学习150
7.8提前终止151
7.9参数绑定和参数共享156
7.10稀疏表示157
7.11Bagging和其他集成方法158
7.12Dropout159
7.13对抗训练165
7.14切面距离、正切传播和流形正切分类器167
第8章深度模型中的优化169
8.1学习和纯优化有什么不同169
8.1.1经验风险小化169
8.1.2代理损失函数和提前终止170
8.1.3批量算法和小批量算法170
8.2神经网络优化中的挑战173
8.2.1病态173
8.2.2局部极小值174
8.2.3高原、鞍点和其他平坦区域175
8.2.4悬崖和梯度爆炸177
8.2.5长期依赖177
8.2.6非精确梯度178
8.2.7局部和全局结构间的弱对应178
8.2.8优化的理论179
8.3基本算法180
8.3.1随机梯度下降180
8.3.2动量181
8.3.3Nesterov动量183
8.4参数初始化策略184
8.5自适应学习率算法187
8.5.1AdaGrad187
8.5.2RMSProp188
8.5.3Adam189
8.5.4选择正确的优化算法190
8.6二阶近似方法190
8.6.1牛顿法190
8.6.2共轭梯度191
8.6.3BFGS193
8.7优化策略和元算法194
8.7.1批标准化194
8.7.2坐标下降196
8.7.3Polyak平均197
8.7.4监督预训练197
8.7.5设计有助于优化的模型199
8.7.6延拓法和课程学习199
第9章卷积网络201
9.1卷积运算201
9.2动机203
9.3池化207
9.4卷积与池化作为一种无限强的先验210
9.5基本卷积函数的变体211
9.6结构化输出218
9.7数据类型219
9.8高效的卷积算法220
9.9随机或无监督的特征220
9.10卷积网络的神经科学基础221
9.11卷积网络与深度学历史226
0章序列建模:循环和递归网络227
10.1展开计算图228
10.2循环神经网络230
10.2.1导师驱动过程和输出循环网络232
10.2.2计算循环神经网络的梯度233
10.2.3作为有向图模型的循环网络235
10.2.4基于上下文的RNN序列建模237
10.3双向RNN239
10.4基于编码-解码的序列到序列架构240
10.5深度循环网络242
10.6递归神经网络243
10.7长期依赖的挑战244
10.8回声状态网络245
10.9渗漏单元和其他多时间尺度的策略247
10.9.1时间维度的跳跃连接247
10.9.2渗漏单元和一系列不同时间尺度247
10.9.3删除连接248
10.10长短期记忆和其他门控RNN248
10.10.1LSTM248
10.10.2其他门控RNN250
10.11优化长期依赖251
10.11.1截断梯度251
10.11.2引导信息流的正则化252
10.12外显记忆253
1章实践方256
11.1性能度量256
11.2默认的基准模型258
11.3决定是否收集更多数据259
11.4选择超参数259
11.4.1手动调整超参数259
11.4.2自动超参数优化算法262
11.4.3网格搜索262
11.4.4随机搜索263
11.4.5基于模型的超参数优化2
11.5调试策略2
11.6示例:多位数字识别267
2章应用269
12.1大规模深度学习269
12.1.1快速的CPU实现269
12.1.2GPU实现269
12.1.3大规模的分布式实现271
12.1.4模型压缩271
12.1.5动态结构272
12.1.6深度网络的专用硬件实现273
12.2计算机视觉274
12.2.1预处理275
12.2.2数据集增强277
12.3语音识别278
12.4自然语言处理279
12.4.1n-gram280
12.4.2神经语言模型281
12.4.3高维输出282
12.4.4结合n-gram和神经语言模型286
12.4.5神经机器翻译287
12.4.6历史展望289
12.5其他应用290
12.5.1推荐系统290
12.5.2知识表示、推理和回答292
第3部分深度学习研究
3章线性因子模型297
13.1概率PCA和因子分析297
13.2独立成分分析298
13.3慢特征分析300
13.4稀疏编码301
13.5PCA的流形解释304
4章自编码器306
14.1欠完备自编码器306
14.2正则自编码器307
14.2.1稀疏自编码器307
14.2.2去噪自编码器309
14.2.3惩罚导数作为正则309
14.3表示能力、层的大小和深度310
14.4随机编码器和解码器310
14.5去噪自编码器详解311
14.5.1得分估计312
14.5.2历史展望314
14.6使用自编码器学习流形314
14.7收缩自编码器317
14.8预测稀疏分解319
14.9自编码器的应用319
5章表示学习321
15.1贪心逐层无监督预训练322
15.2迁移学习和领域自适应326
15.3半监督解释因果关系329
15.4分布式表示332
15.5得益于深度的指数增益336
15.6提供发现潜在原因的线索337
6章深度学习中的结构化概率模型339
16.1非结构化建模的挑战339
16.2使用图描述模型结构342
16.2.1有向模型342
16.2.2无向模型344
16.2.3配分函数345
16.2.4基于能量的模型346
16.2.5分离和d-分离347
16.2.6在有向模型和无向模型中转换350
16.2.7因子图352
16.3从图模型中采样353
1结构化建模的优势353
16.5学习依赖关系354
16.6推断和近似推断354
16.7结构化概率模型的深度学习方法355
7章蒙特卡罗方法359
17.1采样和蒙特卡罗方法359
17.1.1为什么需要采样359
17.1.2蒙特卡罗采样的基础359
17.2重要采样360
17.3马尔可夫链蒙特卡罗方法362
17.4Gibbs采样365
17.5不同的峰值之间的混合挑战365
17.5.1不同峰值之间通过回火来混合367
17.5.2深度也许会有助于混合368
8章直面配分函数369
18.1对数似然梯度369
18.2随机大似然和对比散度370
18.3伪似然375
18.4得分匹配和比率匹配376
18.5去噪得分匹配378
18.6噪声对比估计378
18.7估计配分函数380
18.7.1退火重要采样382
18.7.2桥式采样384
9章近似推断385
19.1把推断视作优化问题385
19.2期望大化386
19.3大后验推断和稀疏编码387
19.4变分推断和变分学习389
19.4.1离散型潜变量390
19.4.2变分法394
19.4.3连续型潜变量396
19.4.4学习和推断之间的相互作用397
19.5学成近似推断397
19.5.1醒眠算法398
19.5.2学成推断的其他形式398
第20章深度生成模型399
20.1玻尔兹曼机399
20.2受限玻尔兹曼机400
20.2.1条件分布401
20.2.2训练受限玻尔兹曼机402
20.3深度信念网络402
20.4深度玻尔兹曼机404
20.4.1有趣的性质406
20.4.2DBM均匀场推断406
20.4.3DBM的参数学习408
20.4.4逐层预训练408
20.4.5联合训练深度玻尔兹曼机410
20.5实值数据上的玻尔兹曼机413
20.5.1Gaussian-BernoulliRBM413
20.5.2条件协方差的无向模型414
20.6卷积玻尔兹曼机417
20.7用于结构化或序列输出的玻尔兹曼机418
20.8其他玻尔兹曼机419
20.9通过随机操作的反向传播419
20.10有向生成网络422
20.10.1sigmoid信念网络422
20.10.2可微生成器网络423
20.10.3变分自编码器425
20.10.4生成式对抗网络426
20.10.5生成矩匹配网络429
20.10.6卷积生成网络430
20.10.7自回归网络430
20.10.8线性自回归网络430
20.10.9神经自回归网络431
20.10.10NADE432
20.11从自编码器采样433
20.11.1与任意去噪自编码器相关的马尔可夫链.434
20.11.2夹合与条件采样434
20.11.3回退训练过程435
20.12生成随机网络435
20.13其他生成方案436
20.14评估生成模型437
20.15结论438
参考文献439
索引486
1.1本书面向的读者7
1.2深度学历史趋势8
1.2.1神经网络的众多名称和命运变迁8
1.2.2与日俱增的数据量12
1.2.3与日俱增的模型规模13
1.2.4与日俱增的精度、复杂度和对现实世界的冲击15
部分应用数学与机器学习基础
第2章线性代数19
2.1标量、向量、矩阵和张量19
2.2矩阵和向量相乘21
2.3单位矩阵和逆矩阵22
2.4线性相关和生成子空间23
2.5范数24
2.6特殊类型的矩阵和向量25
2.7特征分解26
2.8奇异值分解28
2.9Moore-Penrose伪逆28
2.10迹运算29
2.11行列式30
2.12实例:主成分分析30
第3章概率与信息论34
3.1为什么要使用概率34
3.2随机变量35
3.3概率分布36
3.3.1离散型变量和概率质量函数36
3.3.2连续型变量和概率密度函数36
3.4边缘概率37
3.5条件概率37
3.6条件概率的链式法则38
3.7独立性和条件独立性38
3.8期望、方差和协方差38
3.9常用概率分布39
3.9.1Bernoulli分布40
3.9.2ltinoulli分布40
3.9.3高斯分布40
3.9.4指数分布和Laplace分布41
3.9.5Dirac分布和经验分布42
3.9.6分布的混合42
3.10常用函数的有用性质43
3.11贝叶斯规则45
3.12连续型变量的技术细节45
3.13信息论47
3.14结构化概率模型49
第4章数值计算52
4.1上溢和下溢52
4.2病态条件53
4.3基于梯度的优化方法53
4.4约束优化60
4.5实例:线性小二乘61
第5章机器学习基础63
5.1学习算法63
5.1.1任务T63
5.1.2性能度量P66
5.1.3经验E66
5.1.4示例:线性回归68
5.2容量、过拟合和欠拟合70
5.2.1没有免费午餐定理73
5.2.2正则化74
5.3超参数和验证集76
5.4估计、偏差和方差77
5.4.1点估计77
5.4.2偏差78
5.4.3方差和标准差80
5.4.4权衡偏差和方差以小化均方误差81
5.4.5一致性82
5.5大似然估计82
5.5.1条件对数似然和均方误差84
5.5.2大似然的性质84
5.6贝叶斯统计85
5.7监督学习算法88
5.7.1概率监督学习88
5.7.2支持向量机88
5.7.3其他简单的监督学习算法90
5.8无监督学习算法91
5.8.1主成分分析92
5.8.2k-均值聚类94
5.9随机梯度下降94
5.10构建机器学习算法96
5.11促使深度学习发展的挑战96
5.11.1维数灾难97
5.11.2局部不变性和平滑正则化97
5.11.3流形学习99
第2部分深度网络:现代实践
第6章深度前馈网络105
6.1实例:学习XOR107
6.2基于梯度的学习110
6.2.1代价函数111
6.2.2输出单元113
6.3隐藏单元119
6.3.1整流线性单元及其扩展120
6.3.2logisticsigmoid与双曲正切函数121
6.3.3其他隐藏单元122
架构设计123
.1万能近似性质和深度123
.2其他架构上的考虑125
6.5反向传播和其他的微分算法126
6.5.1计算图127
6.5.2微积分中的链式法则127
6.5.3递归地使用链式法则来实现反向传播128
6.5.4全连接MLP中的反向传播计算131
6.5.5符号到符号的导数131
6.5.6一般化的反向传播133
6.5.7实例:用于MLP训练的反向传播135
6.5.8复杂化137
6.5.9深度学习界以外的微分137
6.5.10高阶微分138
6.6历史小记139
第7章深度学习中的正则化141
7.1参数范数惩罚142
7.1.1L2参数正则化142
7.1.2L1正则化144
7.2作为约束的范数惩罚146
7.3正则化和欠约束问题147
7.4数据集增强148
7.5噪声鲁棒性149
7.6半监督学习150
7.7多任务学习150
7.8提前终止151
7.9参数绑定和参数共享156
7.10稀疏表示157
7.11Bagging和其他集成方法158
7.12Dropout159
7.13对抗训练165
7.14切面距离、正切传播和流形正切分类器167
第8章深度模型中的优化169
8.1学习和纯优化有什么不同169
8.1.1经验风险小化169
8.1.2代理损失函数和提前终止170
8.1.3批量算法和小批量算法170
8.2神经网络优化中的挑战173
8.2.1病态173
8.2.2局部极小值174
8.2.3高原、鞍点和其他平坦区域175
8.2.4悬崖和梯度爆炸177
8.2.5长期依赖177
8.2.6非精确梯度178
8.2.7局部和全局结构间的弱对应178
8.2.8优化的理论179
8.3基本算法180
8.3.1随机梯度下降180
8.3.2动量181
8.3.3Nesterov动量183
8.4参数初始化策略184
8.5自适应学习率算法187
8.5.1AdaGrad187
8.5.2RMSProp188
8.5.3Adam189
8.5.4选择正确的优化算法190
8.6二阶近似方法190
8.6.1牛顿法190
8.6.2共轭梯度191
8.6.3BFGS193
8.7优化策略和元算法194
8.7.1批标准化194
8.7.2坐标下降196
8.7.3Polyak平均197
8.7.4监督预训练197
8.7.5设计有助于优化的模型199
8.7.6延拓法和课程学习199
第9章卷积网络201
9.1卷积运算201
9.2动机203
9.3池化207
9.4卷积与池化作为一种无限强的先验210
9.5基本卷积函数的变体211
9.6结构化输出218
9.7数据类型219
9.8高效的卷积算法220
9.9随机或无监督的特征220
9.10卷积网络的神经科学基础221
9.11卷积网络与深度学历史226
0章序列建模:循环和递归网络227
10.1展开计算图228
10.2循环神经网络230
10.2.1导师驱动过程和输出循环网络232
10.2.2计算循环神经网络的梯度233
10.2.3作为有向图模型的循环网络235
10.2.4基于上下文的RNN序列建模237
10.3双向RNN239
10.4基于编码-解码的序列到序列架构240
10.5深度循环网络242
10.6递归神经网络243
10.7长期依赖的挑战244
10.8回声状态网络245
10.9渗漏单元和其他多时间尺度的策略247
10.9.1时间维度的跳跃连接247
10.9.2渗漏单元和一系列不同时间尺度247
10.9.3删除连接248
10.10长短期记忆和其他门控RNN248
10.10.1LSTM248
10.10.2其他门控RNN250
10.11优化长期依赖251
10.11.1截断梯度251
10.11.2引导信息流的正则化252
10.12外显记忆253
1章实践方256
11.1性能度量256
11.2默认的基准模型258
11.3决定是否收集更多数据259
11.4选择超参数259
11.4.1手动调整超参数259
11.4.2自动超参数优化算法262
11.4.3网格搜索262
11.4.4随机搜索263
11.4.5基于模型的超参数优化2
11.5调试策略2
11.6示例:多位数字识别267
2章应用269
12.1大规模深度学习269
12.1.1快速的CPU实现269
12.1.2GPU实现269
12.1.3大规模的分布式实现271
12.1.4模型压缩271
12.1.5动态结构272
12.1.6深度网络的专用硬件实现273
12.2计算机视觉274
12.2.1预处理275
12.2.2数据集增强277
12.3语音识别278
12.4自然语言处理279
12.4.1n-gram280
12.4.2神经语言模型281
12.4.3高维输出282
12.4.4结合n-gram和神经语言模型286
12.4.5神经机器翻译287
12.4.6历史展望289
12.5其他应用290
12.5.1推荐系统290
12.5.2知识表示、推理和回答292
第3部分深度学习研究
3章线性因子模型297
13.1概率PCA和因子分析297
13.2独立成分分析298
13.3慢特征分析300
13.4稀疏编码301
13.5PCA的流形解释304
4章自编码器306
14.1欠完备自编码器306
14.2正则自编码器307
14.2.1稀疏自编码器307
14.2.2去噪自编码器309
14.2.3惩罚导数作为正则309
14.3表示能力、层的大小和深度310
14.4随机编码器和解码器310
14.5去噪自编码器详解311
14.5.1得分估计312
14.5.2历史展望314
14.6使用自编码器学习流形314
14.7收缩自编码器317
14.8预测稀疏分解319
14.9自编码器的应用319
5章表示学习321
15.1贪心逐层无监督预训练322
15.2迁移学习和领域自适应326
15.3半监督解释因果关系329
15.4分布式表示332
15.5得益于深度的指数增益336
15.6提供发现潜在原因的线索337
6章深度学习中的结构化概率模型339
16.1非结构化建模的挑战339
16.2使用图描述模型结构342
16.2.1有向模型342
16.2.2无向模型344
16.2.3配分函数345
16.2.4基于能量的模型346
16.2.5分离和d-分离347
16.2.6在有向模型和无向模型中转换350
16.2.7因子图352
16.3从图模型中采样353
1结构化建模的优势353
16.5学习依赖关系354
16.6推断和近似推断354
16.7结构化概率模型的深度学习方法355
7章蒙特卡罗方法359
17.1采样和蒙特卡罗方法359
17.1.1为什么需要采样359
17.1.2蒙特卡罗采样的基础359
17.2重要采样360
17.3马尔可夫链蒙特卡罗方法362
17.4Gibbs采样365
17.5不同的峰值之间的混合挑战365
17.5.1不同峰值之间通过回火来混合367
17.5.2深度也许会有助于混合368
8章直面配分函数369
18.1对数似然梯度369
18.2随机大似然和对比散度370
18.3伪似然375
18.4得分匹配和比率匹配376
18.5去噪得分匹配378
18.6噪声对比估计378
18.7估计配分函数380
18.7.1退火重要采样382
18.7.2桥式采样384
9章近似推断385
19.1把推断视作优化问题385
19.2期望大化386
19.3大后验推断和稀疏编码387
19.4变分推断和变分学习389
19.4.1离散型潜变量390
19.4.2变分法394
19.4.3连续型潜变量396
19.4.4学习和推断之间的相互作用397
19.5学成近似推断397
19.5.1醒眠算法398
19.5.2学成推断的其他形式398
第20章深度生成模型399
20.1玻尔兹曼机399
20.2受限玻尔兹曼机400
20.2.1条件分布401
20.2.2训练受限玻尔兹曼机402
20.3深度信念网络402
20.4深度玻尔兹曼机404
20.4.1有趣的性质406
20.4.2DBM均匀场推断406
20.4.3DBM的参数学习408
20.4.4逐层预训练408
20.4.5联合训练深度玻尔兹曼机410
20.5实值数据上的玻尔兹曼机413
20.5.1Gaussian-BernoulliRBM413
20.5.2条件协方差的无向模型414
20.6卷积玻尔兹曼机417
20.7用于结构化或序列输出的玻尔兹曼机418
20.8其他玻尔兹曼机419
20.9通过随机操作的反向传播419
20.10有向生成网络422
20.10.1sigmoid信念网络422
20.10.2可微生成器网络423
20.10.3变分自编码器425
20.10.4生成式对抗网络426
20.10.5生成矩匹配网络429
20.10.6卷积生成网络430
20.10.7自回归网络430
20.10.8线性自回归网络430
20.10.9神经自回归网络431
20.10.10NADE432
20.11从自编码器采样433
20.11.1与任意去噪自编码器相关的马尔可夫链.434
20.11.2夹合与条件采样434
20.11.3回退训练过程435
20.12生成随机网络435
20.13其他生成方案436
20.14评估生成模型437
20.15结论438
参考文献439
索引486
本书由的3位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:部分介绍基本的数学工具和机器学概念,它们是深度学预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被认可为是深度学习未来的研究重点。
《深度学适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
《深度学适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。