目 錄?Contents
譯者序
前 言
第1章 Spark機器學習簡介 1
1.1 Spark概述和技術優(yōu)勢 2
1.1.1 Spark概述 2
1.1.2 Spark優(yōu)勢 3
1.2 在機器學習中應用Spark計算 4
1.3 機器學習算法 5
1.4 MLlib 6
1.5 Spark RDD和DataFrame 8
1.5.1 Spark RDD 8
1.5.2 Spark DataFrame 9
1.5.3 R語言DataFrame API 10
1.5.4 機器學習框架、RM4E和Spark計算 11
1.5.5 機器學習框架 12
1.5.6 RM4E 13
1.5.7 Spark計算框架 13
1.6 機器學習工作流和Spark pipeline 14
1.7 機器學習工作流示例 16
1.8 Spark notebook簡介 19
1.8.1 面向機器學習的notebook方法 19
1.8.2 Spark notebook 21
1.9 小結 22
第2章 Spark機器學習的數(shù)據(jù)準備 24
2.1 訪問和加載數(shù)據(jù)集 25
2.1.1 訪問公開可用的數(shù)據(jù)集 25
2.1.2 加載數(shù)據(jù)集到Spark 26
2.1.3 數(shù)據(jù)集探索和可視化 27
2.2 數(shù)據(jù)清洗 29
2.2.1 處理數(shù)據(jù)不完備性 30
2.2.2 在Spark中進行數(shù)據(jù)清洗 31
2.2.3 更簡便的數(shù)據(jù)清洗 32
2.3 一致性匹配 33
2.3.1 一致性問題 33
2.3.2 基于Spark的一致性匹配 34
2.3.3 實體解析 34
2.3.4 更好的一致性匹配 35
2.4 數(shù)據(jù)集重組 36
2.4.1 數(shù)據(jù)集重組任務 36
2.4.2 使用Spark SQL進行數(shù)據(jù)集重組 37
2.4.3 在Spark上使用R語言進行數(shù)據(jù)集重組 38
2.5 數(shù)據(jù)集連接 39
2.5.1 數(shù)據(jù)連接及其工具——Spark SQL 39
2.5.2 Spark中的數(shù)據(jù)集連接 40
2.5.3 使用R語言數(shù)據(jù)表程序包進行數(shù)據(jù)連接 40
2.6 特征提取 42
2.6.1 特征開發(fā)的挑戰(zhàn) 42
2.6.2 基于Spark MLlib的特征開發(fā) 43
2.6.3 基于R語言的特征開發(fā) 45
2.7 復用性和自動化 45
2.7.1 數(shù)據(jù)集預處理工作流 46
2.7.2 基于Spark pipeline的數(shù)據(jù)集預處理 47
2.7.3 數(shù)據(jù)集預處理自動化 47
2.8 小結 49
第3章 基于Spark的整體視圖 51
3.1 Spark整體視圖 51
3.1.1 例子 52
3.1.2 簡潔快速的計算 54
3.2 整體視圖的方法 55
3.2.1 回歸模型 56
3.2.2 SEM方法 57
3.2.3 決策樹 57
3.3 特征準備 58
3.3.1 PCA 59
3.3.2 使用專業(yè)知識進行分類分組 59
3.3.3 特征選擇 60
3.4 模型估計 61
3.4.1 MLlib實現(xiàn) 62
3.4.2 R notebook實現(xiàn) 62
3.5 模型評估 63
3.5.1 快速評價 63
3.5.2 RMSE 64
3.5.3 ROC曲線 65
3.6 結果解釋 66
3.7 部署 66
3.7.1 儀表盤 67
3.7.2 規(guī)則 68
3.8 小結 68
第4章 基于Spark的欺詐檢測 69
4.1 Spark欺詐檢測 70
4.1.1 例子 70
4.1.2 分布式計算 71
4.2 欺詐檢測方法 72
4.2.1 隨機森林 73
4.2.2 決策樹 74
4.3 特征提取 74
4.3.1 從日志文件提取特征 75
4.3.2 數(shù)據(jù)合并 75
4.4 模型估計 76
4.4.1 MLlib實現(xiàn) 77
4.4.2 R notebook實現(xiàn) 77
4.5 模型評價 77
4.5.1 快速評價 78
4.5.2 混淆矩陣和誤報率 78
4.6 結果解釋 79
4.7 部署欺詐檢測 80
4.7.1 規(guī)則 81
4.7.2 評分 81
4.8 小結 82
第5章 基于Spark的風險評分 83
5.1 Spark用于風險評分 84
5.1.1 例子 84
5.1.2 Apache Spark notebook 85
5.2 風險評分方法 87
5.2.1 邏輯回歸 87
5.2.2 隨機森林和決策樹 88
5.3 數(shù)據(jù)和特征準備 89
5.4 模型估計 91
5.4.1 在Data Scientist Workbench上應用R notebook 91
5.4.2 實現(xiàn)R notebook 92
5.5 模型評價 93
5.5.1 混淆矩陣 93
5.5.2 ROC分析 93
5.5.3 Kolmogorov-Smirnov檢驗 94
5.6 結果解釋 95
5.7 部署 96
5.8 小結 97
第6章 基于Spark的流失預測 99
6.1 Spark流失預測 99
6.1.1 例子 100
6.1.2 Spark計算 100
6.2 流失預測的方法 101
6.2.1 回歸模型 102
6.2.2 決策樹和隨機森林 103
6.3 特征準備 104
6.3.1 特征提取 104
6.3.2 特征選擇 105
6.4 模型估計 105
6.5 模型評估 107
6.6 結果解釋 109
6.7 部署 110
6.7.1 評分 111
6.7.2 干預措施推薦 111
6.8 小結 111
第7章 基于Spark的產品推薦 112
7.1 基于Apache Spark 的產品推薦引擎 112
7.1.1 例子 113
7.1.2 基于Spark平臺的SPSS 114
7.2 產品推薦方法 117
7.2.1 協(xié)同過濾 117
7.2.2 編程準備 118
7.3 基于SPSS的數(shù)據(jù)治理 119
7.4 模型估計 120
7.5 模型評價 121
7.6 產品推薦部署 122
7.7 小結 125
第8章 基于Spark的學習分析 126
8.1 Spark流失預測 127
8.1.1 例子 127
8.1.2 Spark計算 128
8.2 流失預測方法 130
8.2.1 回歸模型 130
8.2.2 決策樹 131
8.3 特征準備 131
8.3.1 特征開發(fā) 133
8.3.2 特征選擇 133
8.4 模型估計 135
8.5 模型評價 137
8.5.1 快速評價 138
8.5.2 混淆矩陣和錯誤率 138
8.6 結果解釋 139
8.6.1 計算干預影響 140
8.6.2 計算主因子影響 140
8.7 部署 141
8.7.1 規(guī)則 141
8.7.2 評分 142
8.8 小結