深度学习(最全的中文版)_2017年新书-电源书籍下载-世纪电源网社区

世纪电源网雪花

世纪电源网雪花
离线
LV8
超级版主

积分：26590
|
主题：719
|
帖子：1982

积分:26590

超级版主

2019-2-28 10:47:58

深度学习(最全的中文版)_2017年新书.part1.rar (5 MB, 下载次数: 28)

深度学习(最全的中文版)_2017年新书.part2.rar (5 MB, 下载次数: 26)

深度学习(最全的中文版)_2017年新书.part3.rar (4.6 MB, 下载次数: 26)

目录
第一章前言1
1.1 本书面向的读者. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 深度学习的历史趋势. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 神经网络的众多名称和命运变迁. . . . . . . . . . . . . . . . 10
1.2.2 与日俱增的数据量. . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3 与日俱增的模型规模. . . . . . . . . . . . . . . . . . . . . . . 16
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击. . . . . . . . . 19
第一部分应用数学与机器学习基础22
第二章线性代数24
2.1 标量，向量，矩阵和张量. . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 矩阵和向量相乘. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 单位矩阵和逆矩阵. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 线性相关和生成子空间. . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5 范数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 特殊类型的矩阵和向量. . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 特征分解. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 奇异值分解. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.9 Moore-Penrose 伪逆. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10 迹运算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.11 行列式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.12 实例：主成分分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
第三章概率与信息论44
3.1 为什么要用概率？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 随机变量. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 概率分布. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1 离散型变量和概率分布律函数. . . . . . . . . . . . . . . . . . 47
3.3.2 连续型变量和概率密度函数. . . . . . . . . . . . . . . . . . . 48
3.4 边缘概率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 条件概率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.6 条件概率的链式法则. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 独立性和条件独立性. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.8 期望，方差和协方差. . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.9 常用概率分布. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9.1 Bernoulli 分布. . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.9.2 Multinoulli 分布. . . . . . . . . . . . . . . . . . . . . . . . . 53
3.9.3 高斯分布. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.9.4 指数分布和Laplace 分布. . . . . . . . . . . . . . . . . . . . 55
3.9.5 Dirac 分布和经验分布. . . . . . . . . . . . . . . . . . . . . . 55
3.9.6 分布的混合. . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.10 常用函数的一些性质. . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.11 贝叶斯规则. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.12 连续型变量的技术细节. . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.13 信息论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.14 结构化概率模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
第四章数值计算69
4.1 上溢和下溢. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 病态条件数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 基于梯度的优化方法. . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3.1 梯度之上：Jacobian 和Hessian 矩阵. . . . . . . . . . . . . . 74
4.4 约束优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5 实例：线性最小二乘. . . . . . . . . . . . . . . . . . . . . . . . . . . 82
第五章机器学习基础84
5.1 学习算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.1 任务，T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.2 性能度量，P . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.1.3 经验，E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.1.4 实例：线性回归. . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 容量，过拟合和欠拟合. . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.1 没有免费午餐定理. . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.2 正则化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3 超参数和验证集. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3.1 交叉验证. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4 估计，偏差和方差. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1 点估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.2 偏差. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4.3 方差和标准误差. . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4.4 权衡偏值和方差以最小化均方误差. . . . . . . . . . . . . . . 109
5.4.5 一致性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5 最大似然估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5.1 条件对数似然和均方误差. . . . . . . . . . . . . . . . . . . . 113
5.5.2 最大似然的性质. . . . . . . . . . . . . . . . . . . . . . . . . 114
5.6 贝叶斯统计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.6.1 最大后验（MAP）估计. . . . . . . . . . . . . . . . . . . . . 117
5.7 监督学习算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.1 概率监督学习. . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.2 支持向量机. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.7.3 其他简单的监督学习算法. . . . . . . . . . . . . . . . . . . . 121
5.8 无监督学习算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.8.1 主成分分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.8.2 k-均值聚类. . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.9 随机梯度下降. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.10 构建机器学习算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.11 推动深度学习的挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.11.1 维数灾难. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.11.2 局部不变性和平滑正则化. . . . . . . . . . . . . . . . . . . . 131
5.11.3 流形学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
第二部分深层网络：现代实践138
第六章深度前馈网络140
6.1 实例：学习XOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2 基于梯度的学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2.1 代价函数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.2.1.1 用最大似然学习条件分布. . . . . . . . . . . . . . . . 149
6.2.1.2 学习条件统计量. . . . . . . . . . . . . . . . . . . . . . 150
6.2.2 输出单元. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.2.2.1 用于高斯输出分布的线性单元. . . . . . . . . . . . . . 151
6.2.2.2 用于Bernoulli 输出分布的sigmoid 单元. . . . . . . . 152
6.2.2.3 用于Multinoulli 输出分布的softmax 单元. . . . . . . 154
6.2.2.4 其他的输出类型. . . . . . . . . . . . . . . . . . . . . . 156
6.3 隐藏单元. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.3.1 整流线性单元及其扩展. . . . . . . . . . . . . . . . . . . . . . 161
6.3.2 logistic sigmoid 与双曲正切函数. . . . . . . . . . . . . . . . 163
6.3.3 其他隐藏单元. . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.4 结构设计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.4.1 通用近似性质和深度. . . . . . . . . . . . . . . . . . . . . . . 165
6.4.2 其他结构上的考虑. . . . . . . . . . . . . . . . . . . . . . . . 168
6.5 反向传播和其他的微分算法. . . . . . . . . . . . . . . . . . . . . . . . 170
6.5.1 计算图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.5.2 微积分中的链式法则. . . . . . . . . . . . . . . . . . . . . . . 171
6.5.3 递归地使用链式法则来实现BP . . . . . . . . . . . . . . . . . 173
6.5.4 全连接MLP 中BP 的计算. . . . . . . . . . . . . . . . . . . 175
6.5.5 符号到符号的导数. . . . . . . . . . . . . . . . . . . . . . . . 176
6.5.6 一般化的BP . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.5.7 实例：用于MLP 训练的BP . . . . . . . . . . . . . . . . . . 183
6.5.8 复杂化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.5.9 深度学习界以外的微分. . . . . . . . . . . . . . . . . . . . . . 185
6.5.10 高阶微分. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
6.6 历史小记. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
第七章深度学习的正则化191
7.1 参数范数惩罚. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.1.1 L2 参数正则化. . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.1.2 L1 参数正则化. . . . . . . . . . . . . . . . . . . . . . . . . . 196
7.2 作为约束的范数惩罚. . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7.3 正则化和欠约束问题. . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7.4 数据集增强. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.5 噪声鲁棒性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
7.5.1 向输出目标注入噪声. . . . . . . . . . . . . . . . . . . . . . . 203
7.6 半监督学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.7 多任务学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
7.8 提前终止. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.9 参数绑定和参数共享. . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.9.1 卷积神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.10 稀疏表示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.11 Bagging 和其他集成的方法. . . . . . . . . . . . . . . . . . . . . . . . 214
7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
7.13 对抗训练. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
7.14 切面距离、正切传播和流形正切分类器. . . . . . . . . . . . . . . . . 225
第八章深度模型中的优化228
8.1 学习和优化有什么不同. . . . . . . . . . . . . . . . . . . . . . . . . . 228
8.1.1 经验风险最小化. . . . . . . . . . . . . . . . . . . . . . . . . 229
8.1.2 替代损失函数和提前终止. . . . . . . . . . . . . . . . . . . . 230
8.1.3 批算法和minibatch 算法. . . . . . . . . . . . . . . . . . . . . 230
8.2 神经网络的优化挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . 234
8.2.1 病态. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
8.2.2 局部极小值. . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
8.2.3 高原，鞍点和其他平坦区域. . . . . . . . . . . . . . . . . . . 237
8 目录
8.2.4 悬崖和梯度爆炸. . . . . . . . . . . . . . . . . . . . . . . . . 239
8.2.5 长期依赖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
8.2.6 非精确梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8.2.7 局部和全局结构间的弱对应. . . . . . . . . . . . . . . . . . . 241
8.2.8 优化的理论限制. . . . . . . . . . . . . . . . . . . . . . . . . 243
8.3 基本算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8.3.1 随机梯度下降. . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8.3.2 动量. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
8.3.3 Nesterov 动量. . . . . . . . . . . . . . . . . . . . . . . . . . 248
8.4 参数初始化策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
8.5 自适应学习率的算法. . . . . . . . . . . . . . . . . . . . . . . . . . . 253
8.5.1 AdaGrad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
8.5.2 RMSProp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
8.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
8.5.4 选择正确的优化算法. . . . . . . . . . . . . . . . . . . . . . . 256
8.6 二阶近似方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
8.6.1 牛顿方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.6.2 共轭梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.6.3 BFGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.7 优化技巧和元算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.7.1 batch normalization . . . . . . . . . . . . . . . . . . . . . . . 263
8.7.2 坐标下降. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8.7.3 Polyak 平均. . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8.7.4 监督预训练. . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.7.5 设计有助于优化的模型. . . . . . . . . . . . . . . . . . . . . . 269
8.7.6 连续方法和课程学习. . . . . . . . . . . . . . . . . . . . . . . 270
第九章卷积神经网络273
9.1 卷积运算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
9.2 动机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
9.3 池化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.4 卷积与池化作为一种无限强的先验. . . . . . . . . . . . . . . . . . . . 287
9.5 基本卷积函数的变体. . . . . . . . . . . . . . . . . . . . . . . . . . . 288
9.6 结构化输出. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
9.7 数据类型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
9.8 高效的卷积算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
9.9 随机或无监督的特征. . . . . . . . . . . . . . . . . . . . . . . . . . . 301
9.10 卷积神经网络的神经科学基础. . . . . . . . . . . . . . . . . . . . . . 302
9.11 卷积神经网络与深度学习的历史. . . . . . . . . . . . . . . . . . . . . 308
第十章序列建模：循环和递归网络310
10.1 展开计算图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
10.2 循环神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
10.2.1 Teacher Forcing 和输出循环网络. . . . . . . . . . . . . . . . 317
10.2.2 计算循环神经网络的梯度. . . . . . . . . . . . . . . . . . . . 319
10.2.3 作为有向图模型的循环网络. . . . . . . . . . . . . . . . . . . 320
10.2.4 基于上下文的RNN 序列建模. . . . . . . . . . . . . . . . . . 324
10.3 双向RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
10.4 基于编码-解码的序列到序列架构. . . . . . . . . . . . . . . . . . . . . 328
10.5 深度循环网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
10.6 递归神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
10.7 长期依赖的挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
10.8 回声状态网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
10.9 渗漏单元和其他多时间尺度的策略. . . . . . . . . . . . . . . . . . . . 337
10.9.1 时间维度的跳跃连接. . . . . . . . . . . . . . . . . . . . . . . 337
10.9.2 渗漏单元和一系列不同时间尺度. . . . . . . . . . . . . . . . 337
10.9.3 删除连接. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
10.10 长短期记忆和其他门控RNN . . . . . . . . . . . . . . . . . . . . . . . 338
10.10.1 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
10.10.2 其他门控RNN . . . . . . . . . . . . . . . . . . . . . . . . . . 341
10.11 优化长期依赖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
10.11.1 截断梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
10.11.2 引导信息流的正则化. . . . . . . . . . . . . . . . . . . . . . . 344
10.12 外显记忆. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
第十一章实用方法348
11.1 性能度量. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
11.2 默认的基准模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
11.3 是否收集更多数据. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
11.4 选择超参数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
11.4.1 手动调整超参数. . . . . . . . . . . . . . . . . . . . . . . . . 353
11.4.2 自动超参数优化算法. . . . . . . . . . . . . . . . . . . . . . . 356
11.4.3 网格搜索. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
11.4.4 随机搜索. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
11.4.5 基于模型的超参数优化. . . . . . . . . . . . . . . . . . . . . . 359
11.5 调试技巧. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
11.6 示例：多位数字识别. . . . . . . . . . . . . . . . . . . . . . . . . . . 363
第十二章应用366
12.1 大规模深度学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
12.1.1 快速的CPU 实现. . . . . . . . . . . . . . . . . . . . . . . . 366
12.1.2 GPU 实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
12.1.3 大规模的分布式实现. . . . . . . . . . . . . . . . . . . . . . . 369
12.1.4 模型压缩. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
12.1.5 动态结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
12.1.6 深度网络的专用硬件实现. . . . . . . . . . . . . . . . . . . . 372
12.2 计算机视觉. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
12.2.1 预处理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
12.2.1.1 对比度归一化. . . . . . . . . . . . . . . . . . . . . . . 375
12.2.2 数据集增强. . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
12.3 语音识别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
12.4 自然语言处理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
12.4.1 n-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
12.4.2 神经语言模型. . . . . . . . . . . . . . . . . . . . . . . . . . . 383
12.4.3 高维输出. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
12.4.3.1 使用短列表. . . . . . . . . . . . . . . . . . . . . . . . 384
12.4.3.2 分层Softmax . . . . . . . . . . . . . . . . . . . . . . . 385
12.4.3.3 重要采样. . . . . . . . . . . . . . . . . . . . . . . . . 387
12.4.3.4 噪声对比估计和排名损失. . . . . . . . . . . . . . . . 389
12.4.4 结合n-gram 和神经语言模型. . . . . . . . . . . . . . . . . . 389
12.4.5 神经机器翻译. . . . . . . . . . . . . . . . . . . . . . . . . . . 390
12.4.5.1 使用注意机制并对齐数据片段. . . . . . . . . . . . . . 392
12.4.6 历史观点. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
12.5 其他应用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
12.5.1 推荐系统. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
12.5.1.1 探索与开发. . . . . . . . . . . . . . . . . . . . . . . . 396
12.5.2 知识表示、推理和回答. . . . . . . . . . . . . . . . . . . . . . 397
12.5.2.1 知识、联系和回答. . . . . . . . . . . . . . . . . . . . 397
第三部分深度学习研究401
第十三章线性因子模型404
13.1 概率PCA 和因子分析. . . . . . . . . . . . . . . . . . . . . . . . . . 405
13.2 独立分量分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
13.3 慢特征分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
13.4 稀疏编码. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
13.5 PCA 的流形解释. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
第十四章自动编码器416
14.1 欠完备自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
14.2 正则自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
14.2.1 稀疏自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . 418
14.2.2 去噪自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . 420
14.2.3 惩罚导数作为正则. . . . . . . . . . . . . . . . . . . . . . . . 421
14.3 表示能力、层的大小和深度. . . . . . . . . . . . . . . . . . . . . . . . 421
14.4 随机编码器和解码器. . . . . . . . . . . . . . . . . . . . . . . . . . . 422
14.5 去噪自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
14.5.1 得分估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
14.5.2 历史观点. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
14.6 使用自动编码器学习流形. . . . . . . . . . . . . . . . . . . . . . . . . 427
14.7 收缩自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
14.8 预测稀疏分解. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
14.9 自动编码器的应用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
第十五章表示学习436
15.1 贪心地逐层无监督预训练. . . . . . . . . . . . . . . . . . . . . . . . . 437
15.1.1 何时以及为何无监督预训练有效？ . . . . . . . . . . . . . . . 439
15.2 迁移学习和领域自适应. . . . . . . . . . . . . . . . . . . . . . . . . . 443
15.3 半监督解释因果关系. . . . . . . . . . . . . . . . . . . . . . . . . . . 447
15.4 分布式表示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
15.5 得益于深度的指数增益. . . . . . . . . . . . . . . . . . . . . . . . . . 456
15.6 提供发现潜在原因的线索. . . . . . . . . . . . . . . . . . . . . . . . . 457
第十六章深度学习中的结构化概率模型460
16.1 非结构化建模的挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . 461
16.2 使用图来描述模型结构. . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.2.1 有向模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
16.2.2 无向模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
16.2.3 配分函数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
16.2.4 基于能量的模型. . . . . . . . . . . . . . . . . . . . . . . . . 470
16.2.5 分离和d-分离. . . . . . . . . . . . . . . . . . . . . . . . . . 472
16.2.6 在有向模型和无向模型中转换. . . . . . . . . . . . . . . . . . 473
16.2.7 因子图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
16.3 从图模型中采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
16.4 结构化建模的优势. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
16.5 学习依赖性关系. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
16.6 推断和近似推断. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
16.7 结构化概率模型的深度学习方法. . . . . . . . . . . . . . . . . . . . . 483
16.7.1 实例：受限玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . 485
第十七章蒙特卡罗方法488
17.1 采样和蒙特卡罗方法. . . . . . . . . . . . . . . . . . . . . . . . . . . 488
17.1.1 为什么需要采样？ . . . . . . . . . . . . . . . . . . . . . . . . 488
17.1.2 蒙特卡罗采样的基础. . . . . . . . . . . . . . . . . . . . . . . 489
17.2 重要采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
17.3 马尔可夫链蒙特卡罗方法. . . . . . . . . . . . . . . . . . . . . . . . . 492
17.4 Gibbs 采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
17.5 不同的峰值之间的混合挑战. . . . . . . . . . . . . . . . . . . . . . . . 496
17.5.1 不同峰值之间通过回火来混合. . . . . . . . . . . . . . . . . . 499
17.5.2 深度也许会有助于混合. . . . . . . . . . . . . . . . . . . . . . 500
第十八章面对配分函数502
18.1 对数似然梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
18.2 随机最大似然和对比散度. . . . . . . . . . . . . . . . . . . . . . . . . 504
18.3 伪似然. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
18.4 得分匹配和比率匹配. . . . . . . . . . . . . . . . . . . . . . . . . . . 512
18.5 去噪得分匹配. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
18.6 噪扰对比估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
18.7 估计配分函数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
18.7.1 退火重要采样. . . . . . . . . . . . . . . . . . . . . . . . . . . 519
18.7.2 桥式采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
第十九章近似推断523
19.1 推断是一个优化问题. . . . . . . . . . . . . . . . . . . . . . . . . . . 524
19.2 期望最大化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
19.3 最大后验推断和稀疏编码. . . . . . . . . . . . . . . . . . . . . . . . . 527
19.4 变分推断和学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
19.4.1 离散型隐变量. . . . . . . . . . . . . . . . . . . . . . . . . . . 530
19.4.2 变分法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536
19.4.3 连续型隐变量. . . . . . . . . . . . . . . . . . . . . . . . . . . 538
19.4.4 学习和推断之间的相互作用. . . . . . . . . . . . . . . . . . . 540
19.5 learned 近似推断. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
19.5.1 wake sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
19.5.2 learned 推断的其它形式. . . . . . . . . . . . . . . . . . . . . 542
第二十章深度生成模型543
20.1 玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
20.2 受限玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
20.2.1 条件分布. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
20.2.2 训练受限玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . 547
20.3 深度信念网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
20.4 深度玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550
20.4.1 有趣的性质. . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
20.4.2 DBM 均匀场推断. . . . . . . . . . . . . . . . . . . . . . . . 553
20.4.3 DBM 参数学习. . . . . . . . . . . . . . . . . . . . . . . . . . 555
20.4.4 逐层预训练. . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
20.4.5 联合训练深度玻尔兹曼机. . . . . . . . . . . . . . . . . . . . 558
20.5 实值数据上的玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . 561
20.5.1 Gaussian-Bernoulli RBM . . . . . . . . . . . . . . . . . . . . 562
20.5.2 条件协方差的无向模型. . . . . . . . . . . . . . . . . . . . . . 563
20.6 卷积玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567
20.7 用于结构化或序列输出的玻尔兹曼机. . . . . . . . . . . . . . . . . . 568
20.8 其他玻尔兹曼机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569
20.9 通过随机操作的反向传播. . . . . . . . . . . . . . . . . . . . . . . . . 570
20.9.1 通过离散随机操作的反向传播. . . . . . . . . . . . . . . . . . 572
20.10 有向生成网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575
20.10.1 sigmoid 信念网络. . . . . . . . . . . . . . . . . . . . . . . . . 575
20.10.2 可微生成器网络. . . . . . . . . . . . . . . . . . . . . . . . . 576
20.10.3 变分自动编码器. . . . . . . . . . . . . . . . . . . . . . . . . 578
20.10.4 生成式对抗网络. . . . . . . . . . . . . . . . . . . . . . . . . 580
20.10.5 生成矩匹配网络. . . . . . . . . . . . . . . . . . . . . . . . . 583
20.10.6 卷积生成网络. . . . . . . . . . . . . . . . . . . . . . . . . . . 585
20.10.7 自动回归网络. . . . . . . . . . . . . . . . . . . . . . . . . . . 585
20.10.8 线性自动回归网络. . . . . . . . . . . . . . . . . . . . . . . . 586
20.10.9 神经自动回归网络. . . . . . . . . . . . . . . . . . . . . . . . 586
20.10.10 NADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
20.11 从自动编码器采样. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590
20.11.1 与任意去噪自动编码器相关的马尔可夫链. . . . . . . . . . . 590
20.11.2 夹合与条件采样. . . . . . . . . . . . . . . . . . . . . . . . . 590
20.11.3 回退训练过程. . . . . . . . . . . . . . . . . . . . . . . . . . . 591
20.12 生成随机网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
20.12.1 判别GSN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
20.13 其他生成方案. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594
20.14 评估生成模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595
20.15 结论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597
参考文献598
术语660

收藏1

		2 阎不乐阎不乐离线 LV8 副总工程师积分：7891 \| 主题：0 \| 帖子：213 访问空间发消息积分:7891 LV8 副总工程师 2019-2-28 11:24:59 倒数6
		好深奥，看不懂回复 \| 举报 \|

			3 yuangungun yuangungun 离线 LV6 高级工程师积分：1621 \| 主题：108 \| 帖子：197 访问空间发消息积分:1621 LV6 高级工程师 2019-2-28 11:36:53 倒数5
			AI方面的吧回复 \| 举报 \|

		4 anthony anthony 离线 LV7 版主积分：8075 \| 主题：19 \| 帖子：977 访问空间发消息积分:8075 版主 2019-2-28 16:35:25 倒数4
		谢谢分享回复 \| 举报 \|

		5 XIAOTU80 XIAOTU80 离线 LV7 版主积分：17601 \| 主题：395 \| 帖子：5620 访问空间发消息积分:17601 版主 2019-3-3 20:50:49 倒数3
		这是深入研究智能机器人需要的理论基础吗回复 \| 举报 \|

			6 世纪电源网雪花世纪电源网雪花离线 LV8 超级版主积分：26590 \| 主题：719 \| 帖子：1982 访问空间发消息积分:26590 超级版主 2019-3-4 08:56:48 倒数2
			可以发展一下表情2.png (1.83 KB, 下载次数: 45) 下载附件 2019-3-4 08:56 上传回复 \| 举报 \|

				7 XIAOTU80 XIAOTU80 离线 LV7 版主积分：17601 \| 主题：395 \| 帖子：5620 访问空间发消息积分:17601 版主最新回复 2019-3-5 18:14:54 倒数1
				精力不够用啊要是有时间或者有项目，物联网、智能机器人都可以研究下回复 \| 举报 \|