第1 章一元函數微積分1
1.1 極限與連續(xù) 1
1.1.1 可數集與不可數集 1
1.1.2 數列的極限 3
1.1.3 函數的極限 7
1.1.4 函數的連續(xù)性與間斷點 9
1.1.5 上確界與下確界 11
1.1.6 李普希茨連續(xù)性 12
1.1.7 無窮小量 13
1.2 導數與微分 14
1.2.1 一階導數 14
1.2.2 機器學習中的常用函數 20
1.2.3 高階導數 22
1.2.4 微分 24
1.2.5 導數與函數的單調性 25
1.2.6 極值判別法則 26
1.2.7 導數與函數的凹凸性 28
1.3 微分中值定理 29
1.3.1 羅爾中值定理 29
1.3.2 拉格朗日中值定理 29
1.3.3 柯西中值定理 31
1.4 泰勒公式 31
1.5 不定積分 33
1.5.1 不定積分的定義與性質 33
1.5.2 換元積分法 35
1.5.3 分部積分法 36
1.6 定積分 37
1.6.1 定積分的定義與性質 38
1.6.2 牛頓-萊布尼茨公式 39
1.6.3 定積分的計算 40
1.6.4 變上限積分 41
1.6.5 定積分的應用 42
1.6.6 廣義積分 44
1.7 常微分方程 45
1.7.1 基本概念 45
1.7.2 一階線性微分方程 46
第2 章線性代數與矩陣論49
2.1 向量及其運算 49
2.1.1 基本概念 49
2.1.2 基本運算 51
2.1.3 向量的范數 53
2.1.4 解析幾何 55
2.1.5 線性相關性 57
2.1.6 向量空間 58
2.1.7 應用——線性回歸 61
2.1.8 應用——線性分類器與支持
向量機 62
2.2 矩陣及其運算 65
2.2.1 基本概念 65
2.2.2 基本運算 67
2.2.3 逆矩陣 72
2.2.4 矩陣的范數 78
2.2.5 應用——人工神經網絡 78
2.2.6 線性變換 81
2.3 行列式 82
2.3.1 行列式的定義與性質 83
2.3.2 計算方法 91
2.4 線性方程組 92
2.4.1 高斯消元法 92
2.4.2 齊次方程組 93
2.4.3 非齊次方程組 95
2.5 特征值與特征向量 97
2.5.1 特征值與特征向量 97
2.5.2 相似變換 105
2.5.3 正交變換 106
2.5.4 QR 算法 110
2.5.5 廣義特征值 112
2.5.6 瑞利商 112
2.5.7 譜范數與特征值的關系 114
2.5.8 條件數 114
2.5.9 應用——譜歸一化與譜正則化 115
2.6 二次型 116
2.6.1 基本概念 116
2.6.2 正定二次型與正定矩陣 116
2.6.3 標準型 119
2.7 矩陣分解 121
2.7.1 楚列斯基分解 121
2.7.2 QR 分解 123
2.7.3 特征值分解 127
2.7.4 奇異值分解 128
第3 章多元函數微積分133
3.1 偏導數 133
3.1.1 一階偏導數 133
3.1.2 高階偏導數 134
3.1.3 全微分 136
3.1.4 鏈式法則 136
3.2 梯度與方向導數 138
3.2.1 梯度 138
3.2.2 方向導數 139
3.2.3 應用——邊緣檢測與HOG
特征 139
3.3 黑塞矩陣 140
3.3.1 黑塞矩陣的定義與性質 141
3.3.2 凹凸性 141
3.3.3 極值判別法則 143
3.3.4 應用——最小二乘法 145
3.4 雅可比矩陣 146
3.4.1 雅可比矩陣的定義和性質 146
3.4.2 鏈式法則的矩陣形式 148
3.5 向量與矩陣求導 150
3.5.1 常用求導公式 150
3.5.2 應用——反向傳播算法 154
3.6 微分算法 156
3.6.1 符號微分 156
3.6.2 數值微分 157
3.6.3 自動微分 158
3.7 泰勒公式 159
3.8 多重積分 161
3.8.1 二重積分 161
3.8.2 三重積分 164
3.8.3 n 重積分 167
3.9 無窮級數 170
3.9.1 常數項級數 170
3.9.2 函數項級數 173
第4 章最優(yōu)化方法176
4.1 基本概念 176
4.1.1 問題定義 177
4.1.2 迭代法的基本思想 179
4.2 一階優(yōu)化算法 180
4.2.1 梯度下降法 180
4.2.2 最速下降法 183
4.2.3 梯度下降法的改進 184
4.2.4 隨機梯度下降法 186
4.2.5 應用——人工神經網絡 187
4.3 二階優(yōu)化算法 188
4.3.1 牛頓法 188
4.3.2 擬牛頓法 189
4.4 分治法 193
4.4.1 坐標下降法 193
4.4.2 SMO 算法 194
4.4.3 分階段優(yōu)化 195
4.4.4 應用——logistic 回歸 196
4.5 凸優(yōu)化問題 198
4.5.1 數值優(yōu)化算法面臨的問題 198
4.5.2 凸集 199
4.5.3 凸優(yōu)化問題及其性質 200
4.5.4 機器學習中的凸優(yōu)化問題 201
4.6 帶約束的優(yōu)化問題 202
4.6.1 拉格朗日乘數法 202
4.6.2 應用——線性判別分析 204
4.6.3 拉格朗日對偶 205
4.6.4 KKT 條件 208
4.6.5 應用——支持向量機 209
4.7 多目標優(yōu)化問題 213
4.7.1 基本概念 213
4.7.2 求解算法 215
4.7.3 應用——多目標神經結構搜
索 215
4.8 泛函極值與變分法 216
4.8.1 泛函與變分 217
4.8.2 歐拉—拉格朗日方程 218
4.8.3 應用——證明兩點之間直線
最短 220
4.9 目標函數的構造 221
4.9.1 有監(jiān)督學習 221
4.9.2 無監(jiān)督學習 224
4.9.3 強化學習 225
第5 章概率論228
5.1 隨機事件與概率 229
5.1.1 隨機事件概率 229
5.1.2 條件概率 233
5.1.3 全概率公式 234
5.1.4 貝葉斯公式 235
5.1.5 條件獨立 236
5.2 隨機變量 236
5.2.1 離散型隨機變量 236
5.2.2 連續(xù)型隨機變量 237
5.2.3 數學期望 240
5.2.4 方差與標準差 242
5.2.5 Jensen 不等式 243
5.3 常用概率分布 244
5.3.1 均勻分布 244
5.3.2 伯努利分布 246
5.3.3 二項分布 247
5.3.4 多項分布 248
5.3.5 幾何分布 249
5.3.6 正態(tài)分布 250
5.3.7 t 分布 252
5.3.8 應用——顏色直方圖 253
5.3.9 應用——貝葉斯分類器 254
5.4 分布變換 254
5.4.1 隨機變量函數 254
5.4.2 逆變換采樣算法 256
5.5 隨機向量 258
5.5.1 離散型隨機向量 258
5.5.2 連續(xù)型隨機向量 260
5.5.3 數學期望 261
5.5.4 協方差 262
5.5.5 常用概率分布 265
5.5.6 分布變換 268
5.5.7 應用——高斯混合模型 269
5.6 極限定理 271
5.6.1 切比雪夫不等式 271
5.6.2 大數定律 271
5.6.3 中心極限定理 273
5.7 參數估計 273
5.7.1 最大似然估計 274
5.7.2 最大后驗概率估計 276
5.7.3 貝葉斯估計 278
5.7.4 核密度估計 278
5.7.5 應用——logistic 回歸 280
5.7.6 應用——EM 算法 282
5.7.7 應用——Mean Shift 算法 286
5.8 隨機算法 288
5.8.1 基本隨機數生成算法 288
5.8.2 遺傳算法 290
5.8.3 蒙特卡洛算法 293
5.9 采樣算法 295
5.9.1 拒絕采樣 296
5.9.2 重要性采樣 297
第6 章信息論298
6.1 熵與聯合熵 298
6.1.1 信息量與熵 298
6.1.2 熵的性質 300
6.1.3 應用——決策樹 302
6.1.4 聯合熵 303
6.2 交叉熵 305
6.2.1 交叉熵的定義 306
6.2.2 交叉熵的性質 306
6.2.3 應用——softmax 回歸 307
6.3 Kullback-Leibler 散度 309
6.3.1 KL 散度的定義 309
6.3.2 KL 散度的性質 311
6.3.3 與交叉熵的關系 312
6.3.4 應用——流形降維 312
6.3.5 應用——變分推斷 313
6.4 Jensen-Shannon 散度 316
6.4.1 JS 散度的定義 316
6.4.2 JS 散度的性質 316
6.4.3 應用——生成對抗網絡 317
6.5 互信息 320
6.5.1 互信息的定義 320
6.5.2 互信息的性質 321
6.5.3 與熵的關系 322
6.5.4 應用——特征選擇 323
6.6 條件熵 324
6.6.1 條件熵定義 324
6.6.2 條件熵的性質 325
6.6.3 與熵以及互信息的關系 325
6.7 總結 326
第7 章隨機過程328
7.1 馬爾可夫過程 328
7.1.1 馬爾可夫性 329
7.1.2 馬爾可夫鏈的基本概念 330
7.1.3 狀態(tài)的性質與分類 333
7.1.4 平穩(wěn)分布與極限分布 337
7.1.5 細致平衡條件 342
7.1.6 應用——隱馬爾可夫模型 343
7.1.7 應用——強化學習 345
7.2 馬爾可夫鏈采樣算法 348
7.2.1 基本馬爾可夫鏈采樣 349
7.2.2 MCMC 采樣算法 349
7.2.3 Metropolis-Hastings 算法 351
7.2.4 Gibbs 算法 353
7.3 高斯過程 355
7.3.1 高斯過程性質 355
7.3.2 高斯過程回歸 355
7.3.3 應用——貝葉斯優(yōu)化 358
第8 章圖論363
8.1 圖的基本概念 363
8.1.1 基本概念 363
8.1.2 應用——計算圖與自動微分 365
8.1.3 應用——概率圖模型 370
8.1.4 鄰接矩陣與加權度矩陣 371
8.1.5 應用——樣本集的相似度圖 372
8.2 若干特殊的圖 373
8.2.1 聯通圖 373
8.2.2 二部圖 374
8.2.3 應用——受限玻爾茲曼機 374
8.2.4 有向無環(huán)圖 376
8.2.5 應用——神經結構搜索 376
8.3 重要的算法 380
8.3.1 遍歷算法 380
8.3.2 最短路徑算法 381
8.3.3 拓撲排序算法 382
8.4 譜圖理論 384
8.4.1 拉普拉斯矩陣 385
8.4.2 歸一化拉普拉斯矩陣 388
8.4.3 應用——流形降維 390