第 1章 獲取數據與清洗數據 1
1.1 簡介 2
1.2 使用Java從分層目錄中提取所有文件名 3
準備工作 3
操作步驟 3
1.3 使用Apache Commons IO從多層目錄中提取所有文件名 5
準備工作 5
操作步驟 5
1.4 使用Java 8從文本文件一次性讀取所有內容 6
操作步驟 7
1.5 使用Apache Commons IO從文本文件一次性讀取所有內容 7
準備工作 7
操作方法 8
1.6 使用Apache Tika提取PDF文本 8
準備知識 9
操作步驟 9
1.7 使用正則表達式清洗ASCII文本文件 11
操作步驟 11
1.8 使用Univocity解析CSV文件 12
準備工作 13
操作步驟 13
1.9 使用Univocity解析TSV文件 15
準備工作 15
操作步驟 16
1.10 使用JDOM解析XML文件 17
準備工作 17
操作步驟 18
1.11 使用JSON.simple編寫JSON文件 20
準備工作 20
操作步驟 21
1.12 使用JSON.simple讀取JSON文件 23
準備工作 24
操作步驟 24
1.13 使用JSoup從一個URL提取Web數據 26
準備工作 26
操作步驟 26
1.14 使用Selenium Webdriver從網站提取Web數據 29
準備工作 29
操作步驟 29
1.15 從MySQL數據庫讀取表格數據 32
準備工作 32
操作步驟 32
第 2章 為數據建立索引與搜索數據 35
2.1 簡介 35
2.2 使用Apache Lucene為數據建立索引 35
準備工作 36
操作步驟 40
工作原理 47
2.3 使用Apache Lucene搜索帶索引的數據 50
準備工作 50
操作步驟 51
第3章 數據統計分析 56
3.1 簡介 57
3.2 生成描述性統計 59
操作步驟 59
3.3 生成概要統計 60
操作步驟 60
3.4 從多種分布生成概要統計 61
操作步驟 62
更多內容 63
3.5 計算頻率分布 64
操作步驟 64
3.6 計算字符串中的詞頻 65
操作步驟 65
工作原理 67
3.7 使用Java 8計算字符串中的詞頻 67
操作步驟 67
3.8 計算簡單回歸 68
操作步驟 69
3.9 計算普通最小二乘回歸 70
操作步驟 70
3.10 計算廣義最小二乘回歸 72
操作步驟 72
3.11 計算兩組數據點的協方差 74
操作步驟 74
3.12 為兩組數據點計算皮爾遜相關系數 75
操作步驟 75
3.13 執(zhí)行配對t檢驗 76
操作步驟 76
3.14 執(zhí)行卡方檢驗 77
操作步驟 78
3.15 執(zhí)行單因素方差分析
(one-way ANOVA test) 79
操作步驟 79
3.16 執(zhí)行K-S檢驗 81
操作步驟 81
第4章 數據學習Ⅰ 83
4.1 簡介 83
4.2 創(chuàng)建與保存ARFF文件 84
操作步驟 87
4.3 對機器學習模型進行交叉驗證 91
操作步驟 91
4.4 對新的測試數據進行分類 95
準備工作 95
操作步驟 96
4.5 使用過濾分類器對新測試數據分類 102
操作步驟 102
4.6 創(chuàng)建線性回歸模型 105
操作步驟 106
4.7 創(chuàng)建邏輯回歸模型 108
操作步驟 108
4.8 使用K均值算法對數據點
進行聚類 110
操作步驟 110
4.9 依據類別對數據進行聚類處理 113
操作方法 113
4.10 學習數據間的關聯規(guī)則 116
準備工作 116
操作步驟 116
4.11 使用低層方法、過濾方法、元分類器方法選擇特征/屬性 118
準備工作 119
操作步驟 119
第5章 數據學習Ⅱ 125
5.1 簡介 125
5.2 使用Java機器學習庫(Java-ML)向數據應用機器學習 126
準備工作 126
操作步驟 128
5.3 使用斯坦福分類器對數據點分類 137
準備工作 137
操作步驟 140
工作原理 141
5.4 使用MOA對數據點分類 142
準備工作 142
操作步驟 144
5.5 使用Mulan對多標簽數據點進行分類 147
準備工作 147
操作步驟 150
第6章 從文本數據提取信息 154
6.1 簡介 154
6.2 使用Java檢測標記(單詞) 155
準備工作 155
操作步驟 155
6.3 使用Java檢測句子 160
準備工作 160
操作步驟 160
6.4 使用OpenNLP檢測標記(單詞)與句子 161
準備工作 162
操作步驟 163
6.5 使用Stanford CoreNLP從標記中提取詞根、詞性,以及
識別命名實體 167
準備工作 167
操作步驟 169
6.6 使用Java 8借助余弦相似性測度測量文本相似度 171
準備工作 172
操作步驟 172
6.7 使用Mallet從文本文檔提取主題 176
準備工作 177
操作步驟 179
6.8 使用Mallet對文本文檔進行分類 184
準備工作 184
操作步驟 185
6.9 使用Weka對文本文檔進行分類 189
準備工作 190
操作步驟 191
第7章 處理大數據 194
7.1 簡介 194
7.2 使用Apache Mahout訓練在線邏輯回歸模型 195
準備工作 195
操作步驟 198
7.3 使用Apache Mahout應用在線邏輯回歸模型 202
準備工作 202
操作步驟 203
7.4 使用Apache Spark解決簡單的文本挖掘問題 207
準備工作 208
操作步驟 210
7.5 使用MLib的K均值算法做聚類 214
準備工作 214
操作步驟 214
7.6 使用MLib創(chuàng)建線性回歸模型 217
準備工作 217
操作步驟 218
7.7 使用MLib的隨機森林模型對數據點進行分類 222
準備工作 222
操作步驟 223
第8章 數據深度學習 229
8.1 簡介 229
8.2 使用DL4j創(chuàng)建Word2vec神經網絡 241
操作方法 241
工作原理 243
更多內容 246
8.3 使用DL4j創(chuàng)建深度信念神經網絡 246
操作步驟 246
工作原理 250
8.4 使用DL4j創(chuàng)建深度自動編碼器 254
操作步驟 254
工作原理 256
第9章 數據可視化 259
9.1 簡介 259
9.2 繪制2D正弦曲線 260
準備工作 260
操作步驟 262
9.3 繪制直方圖 266
準備工作 266
操作步驟 268
9.4 繪制條形圖 273
準備工作 274
操作步驟 275
9.5 繪制箱線圖或箱須圖 279
準備工作 279
操作步驟 281
9.6 繪制散點圖 285
準備工作 285
操作步驟 286
9.7 繪制甜圈圖 289
準備工作 289
操作步驟 290
9.8 繪制面積圖 294
準備工作 294
操作步驟 295