注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能Spark機(jī)器學(xué)習(xí)

Spark機(jī)器學(xué)習(xí)

Spark機(jī)器學(xué)習(xí)

定 價(jià):¥59.00

作 者: (南非)彭特里思
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 人工智能

ISBN: 9787115399830 出版時(shí)間: 2015-09-01 包裝:
開(kāi)本: 16 頁(yè)數(shù): 224 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Spark機(jī)器學(xué)習(xí)》每章都設(shè)計(jì)了案例研究,以機(jī)器學(xué)習(xí)算法為主線,結(jié)合實(shí)例探討了Spark 的實(shí)際應(yīng)用。書中沒(méi)有讓人抓狂的數(shù)據(jù)公式,而是從準(zhǔn)備和正確認(rèn)識(shí)數(shù)據(jù)開(kāi)始講起,全面涵蓋了推薦系統(tǒng)、回歸、聚類、降維等經(jīng)典的機(jī)器學(xué)習(xí)算法及其實(shí)際應(yīng)用。

作者簡(jiǎn)介

  Nick Pentreath是Graphflow公司聯(lián)合創(chuàng)始人。Graphflow是一家大數(shù)據(jù)和機(jī)器學(xué)習(xí)公司,專注于以用戶為中心的推薦系統(tǒng)和客戶服務(wù)智能化技術(shù)。Nick擁有金融市場(chǎng)、機(jī)器學(xué)習(xí)和軟件開(kāi)發(fā)背景,曾任職于高盛集團(tuán),之后去在線廣告營(yíng)銷創(chuàng)業(yè)公司Cognitive Match Limited(倫敦)擔(dān)任研究科學(xué)家,后又去非洲最大的社交網(wǎng)絡(luò)Mxit領(lǐng)導(dǎo)數(shù)據(jù)科學(xué)與分析團(tuán)隊(duì)。Nick是Apache Spark項(xiàng)目管理委員會(huì)成員之一。

圖書目錄

第1 章 Spark 的環(huán)境搭建與運(yùn)行 1 1.1 Spark 的本地安裝與配置 2 1.2 Spark 集群 3 1.3 Spark 編程模型 4 1.3.1 SparkContext類與SparkConf類 4 1.3.2 Spark shell 5 1.3.3 彈性分布式數(shù)據(jù)集 6 1.3.4 廣播變量和累加器 10 1.4 Spark Scala 編程入門 11 1.5 Spark Java 編程入門 14 1.6 Spark Python 編程入門 17 1.7 在Amazon EC2 上運(yùn)行Spark 18 1.8 小結(jié) 23 第2 章 設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng) 24 2.1 MovieStream 介紹 24 2.2 機(jī)器學(xué)習(xí)系統(tǒng)商業(yè)用例 25 2.2.1 個(gè)性化 26 2.2.2 目標(biāo)營(yíng)銷和客戶細(xì)分 26 2.2.3 預(yù)測(cè)建模與分析 26 2.3 機(jī)器學(xué)習(xí)模型的種類 27 2.4 數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)系統(tǒng)的組成 27 2.4.1 數(shù)據(jù)獲取與存儲(chǔ) 28 2.4.2 數(shù)據(jù)清理與轉(zhuǎn)換 28 2.4.3 模型訓(xùn)練與測(cè)試回路 29 2.4.4 模型部署與整合 30 2.4.5 模型監(jiān)控與反饋 30 2.4.6 批處理或?qū)崟r(shí)方案的選擇 31 2.5 機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu) 31 2.6 小結(jié) 33 第3 章 Spark 上數(shù)據(jù)的獲取、處理與準(zhǔn)備 34 3.1 獲取公開(kāi)數(shù)據(jù)集 35 3.2 探索與可視化數(shù)據(jù) 37 3.2.1 探索用戶數(shù)據(jù) 38 3.2.2 探索電影數(shù)據(jù) 41 3.2.3 探索評(píng)級(jí)數(shù)據(jù) 43 3.3 處理與轉(zhuǎn)換數(shù)據(jù) 46 3.4 從數(shù)據(jù)中提取有用特征 48 3.4.1 數(shù)值特征 48 3.4.2 類別特征 49 3.4.3 派生特征 50 3.4.4 文本特征 51 3.4.5 正則化特征 55 3.4.6 用軟件包提取特征 56 3.5 小結(jié) 57 第4 章 構(gòu)建基于Spark 的推薦引擎 58 4.1 推薦模型的分類 59 4.1.1 基于內(nèi)容的過(guò)濾 59 4.1.2 協(xié)同過(guò)濾 59 4.1.3 矩陣分解 60 4.2 提取有效特征 64 4.3 訓(xùn)練推薦模型67 4.3.1 使用MovieLens 100k 數(shù)據(jù)集訓(xùn)練模型 67 4.3.2 使用隱式反饋數(shù)據(jù)訓(xùn)練模型 68 4.4 使用推薦模型 69 4.4.1 用戶推薦 69 4.4.2 物品推薦 72 4.5 推薦模型效果的評(píng)估 75 4.5.1 均方差 75 4.5.2 K 值平均準(zhǔn)確率 77 4.5.3 使用MLlib 內(nèi)置的評(píng)估函數(shù) 81 4.6 小結(jié) 82 第5 章 Spark 構(gòu)建分類模型 83 5.1 分類模型的種類 85 5.1.1 線性模型 85 5.1.2 樸素貝葉斯模型 89 5.1.3 決策樹 90 5.2 從數(shù)據(jù)中抽取合適的特征 91 5.3 訓(xùn)練分類模型 93 5.4 使用分類模型 95 5.5 評(píng)估分類模型的性能 96 5.5.1 預(yù)測(cè)的正確率和錯(cuò)誤率 96 5.5.2 準(zhǔn)確率和召回率 97 5.5.3 ROC 曲線和AUC 99 5.6 改進(jìn)模型性能以及參數(shù)調(diào)優(yōu) 101 5.6.1 特征標(biāo)準(zhǔn)化 101 5.6.2 其他特征 104 5.6.3 使用正確的數(shù)據(jù)格式 106 5.6.4 模型參數(shù)調(diào)優(yōu) 107 5.7 小結(jié) 115 第6 章 Spark 構(gòu)建回歸模型 116 6.1 回歸模型的種類 116 6.1.1 最小二乘回歸 117 6.1.2 決策樹回歸 117 6.2 從數(shù)據(jù)中抽取合適的特征 118 6.3 回歸模型的訓(xùn)練和應(yīng)用 123 6.4 評(píng)估回歸模型的性能 125 6.4.1 均方誤差和均方根誤差 125 6.4.2 平均絕對(duì)誤差 126 6.4.3 均方根對(duì)數(shù)誤差 126 6.4.4 R-平方系數(shù) 126 6.4.5 計(jì)算不同度量下的性能 126 6.5 改進(jìn)模型性能和參數(shù)調(diào)優(yōu) 127 6.5.1 變換目標(biāo)變量 128 6.5.2 模型參數(shù)調(diào)優(yōu) 132 6.6 小結(jié) 140 第7 章 Spark 構(gòu)建聚類模型 141 7.1 聚類模型的類型 142 7.1.1 K-均值聚類 142 7.1.2 混合模型 146 7.1.3 層次聚類 146 7.2 從數(shù)據(jù)中提取正確的特征 146 7.3 訓(xùn)練聚類模型 150 7.4 使用聚類模型進(jìn)行預(yù)測(cè) 151 7.5 評(píng)估聚類模型的性能 155 7.5.1 內(nèi)部評(píng)價(jià)指標(biāo) 155 7.5.2 外部評(píng)價(jià)指標(biāo) 156 7.5.3 在MovieLens 數(shù)據(jù)集計(jì)算性能 156 7.6 聚類模型參數(shù)調(diào)優(yōu) 156 7.7 小結(jié) 158 第8 章 Spark 應(yīng)用于數(shù)據(jù)降維 159 8.1 降維方法的種類 160 8.1.1 主成分分析 160 8.1.2 奇異值分解 160 8.1.3 和矩陣分解的關(guān)系 161 8.1.4 聚類作為降維的方法 161 8.2 從數(shù)據(jù)中抽取合適的特征 162 8.3 訓(xùn)練降維模型 169 8.4 使用降維模型 172 8.4.1 在LFW數(shù)據(jù)集上使用PCA投影數(shù)據(jù) 172 8.4.2 PCA 和SVD 模型的關(guān)系 173 8.5 評(píng)價(jià)降維模型 174 8.6 小結(jié) 176 第9 章 Spark 高級(jí)文本處理技術(shù) 177 9.1 處理文本數(shù)據(jù)有什么特別之處 177 9.2 從數(shù)據(jù)中抽取合適的特征 177 9.2.1 短語(yǔ)加權(quán)表示 178 9.2.2 特征哈希 179 9.2.3 從20 新聞組數(shù)據(jù)集中提取TF-IDF 特征 180 9.3 使用TF-IDF 模型 192 9.3.1 20 Newsgroups 數(shù)據(jù)集的文本相似度和TF-IDF 特征 192 9.3.2 基于20 Newsgroups 數(shù)據(jù)集使用TF-IDF 訓(xùn)練文本分類器 194 9.4 評(píng)估文本處理技術(shù)的作用 196 9.5 Word2Vec 模型 197 9.6 小結(jié) 200 第10 章 Spark Streaming 在實(shí)時(shí)機(jī)器學(xué)習(xí)上的應(yīng)用 201 10.1 在線學(xué)習(xí) 201 10.2 流處理 202 10.2.1 Spark Streaming 介紹 202 10.2.2 使用Spark Streaming 緩存和容錯(cuò) 205 10.3 創(chuàng)建Spark Streaming 應(yīng)用 206 10.3.1 消息生成端 207 10.3.2 創(chuàng)建簡(jiǎn)單的流處理程序 209 10.3.3 流式分析 211 10.3.4 有狀態(tài)的流計(jì)算213 10.4 使用Spark Streaming 進(jìn)行在線學(xué)習(xí) 215 10.4.1 流回歸 215 10.4.2 一個(gè)簡(jiǎn)單的流回歸程序 216 10.4.3 流K-均值 220 10.5 在線模型評(píng)估 221 10.6 小結(jié) 224

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)