注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Spark數(shù)據(jù)分析:基于Python語(yǔ)言(英文版)

Spark數(shù)據(jù)分析:基于Python語(yǔ)言(英文版)

Spark數(shù)據(jù)分析:基于Python語(yǔ)言(英文版)

定 價(jià):¥79.00

作 者: [澳] 杰夫瑞·艾文(Jeffrey Aven) 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 經(jīng)典原版書(shū)庫(kù)
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787111620037 出版時(shí)間: 2019-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 277 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)重點(diǎn)關(guān)注Spark項(xiàng)目的基本知識(shí),從Spark核心開(kāi)始,然后拓展到各種Spark擴(kuò)展、Spark相關(guān)項(xiàng)目、Spark子項(xiàng)目,以及Spark所處的豐富的生態(tài)系統(tǒng)里各種別的開(kāi)源技術(shù),比如Hadoop、Kafka、Cassandra等。

作者簡(jiǎn)介

暫缺《Spark數(shù)據(jù)分析:基于Python語(yǔ)言(英文版)》作者簡(jiǎn)介

圖書(shū)目錄

第一部分 Spark基礎(chǔ)
第1章 大數(shù)據(jù)、Hadoop、Spark介紹3
1.1 大數(shù)據(jù)、分布式計(jì)算、Hadoop簡(jiǎn)介3
1.1.1 大數(shù)據(jù)與Hadoop簡(jiǎn)史4
1.1.2 Hadoop詳解5
1.2 Apache Spark簡(jiǎn)介11
1.2.1 Apache Spark背景11
1.2.2 Spark的用途12
1.2.3 Spark編程接口12
1.2.4 Spark程序的提交類型12
1.2.5 Spark應(yīng)用程序的輸入輸出類型14
1.2.6 Spark中的RDD14
1.2.7 Spark與Hadoop14
1.3 Python函數(shù)式編程15
1.3.1 Python函數(shù)式編程用到的數(shù)據(jù)結(jié)構(gòu)15
1.3.2 Python對(duì)象序列化18
1.3.3 Python函數(shù)式編程基礎(chǔ)21
1.4 本章小結(jié)23
第2章 部署Spark25
2.1 Spark部署模式25
2.1.1 本地模式26
2.1.2 Spark獨(dú)立集群26
2.1.3 基于YARN運(yùn)行Spark27
2.1.4 基于Mesos運(yùn)行Spark28
2.2 準(zhǔn)備安裝Spark28
2.3 獲取Spark29
2.4 在Linux或Mac OS X上安裝Spark30
2.5 在Windows上安裝Spark32
2.6 探索Spark安裝目錄34
2.7 部署多節(jié)點(diǎn)的Spark獨(dú)立集群35
2.8 在云上部署Spark37
2.8.1 AWS37
2.8.2 GCP39
2.8.3 Databricks40
2.9 本章小結(jié)41
第3章 理解Spark集群架構(gòu)43
3.1 Spark應(yīng)用中的術(shù)語(yǔ)43
3.1.1 Spark驅(qū)動(dòng)器44
3.1.2 Spark工作節(jié)點(diǎn)與執(zhí)行器47
3.1.3 Spark主進(jìn)程與集群管理器49
3.2 使用獨(dú)立集群的Spark應(yīng)用51
3.3 在YARN上運(yùn)行Spark應(yīng)用的部署模式51
3.3.1 客戶端模式52
3.3.2 集群模式53
3.3.3 回顧本地模式54
3.4 本章小結(jié)55
第4章 Spark編程基礎(chǔ)57
4.1 RDD簡(jiǎn)介57
4.2 加載數(shù)據(jù)到RDD59
4.2.1 從文件創(chuàng)建RDD59
4.2.2 從文本文件創(chuàng)建RDD的方法61
4.2.3 從對(duì)象文件創(chuàng)建RDD64
4.2.4 從數(shù)據(jù)源創(chuàng)建RDD64
4.2.5 從JSON文件創(chuàng)建RDD67
4.2.6 通過(guò)編程創(chuàng)建RDD69
4.3 RDD操作70
4.3.1 RDD核心概念70
4.3.2 基本的RDD轉(zhuǎn)化操作75
4.3.3 基本的RDD行動(dòng)操作79
4.3.4 鍵值對(duì)RDD的轉(zhuǎn)化操作83
4.3.5 MapReduce與單詞計(jì)數(shù)練習(xí)90
4.3.6 連接操作93
4.3.7 在Spark中連接數(shù)據(jù)集98
4.3.8 集合操作101
4.3.9 數(shù)值型RDD的操作103
4.4 本章小結(jié)106
第二部分 基礎(chǔ)拓展
第5章 Spark核心API高級(jí)編程109
5.1 Spark中的共享變量109
5.1.1 廣播變量110
5.1.2 累加器114
5.1.3 練習(xí):使用廣播變量和累加器117
5.2 Spark中的數(shù)據(jù)分區(qū)118
5.2.1 分區(qū)概述118
5.2.2 掌控分區(qū)119
5.2.3 重分區(qū)函數(shù)121
5.2.4 針對(duì)分區(qū)的API方法123
5.3 RDD的存儲(chǔ)選項(xiàng)125
5.3.1 回顧RDD譜系125
5.3.2 RDD存儲(chǔ)選項(xiàng)126
5.3.3 RDD緩存129
5.3.4 持久化RDD129
5.3.5 選擇何時(shí)持久化或緩存RDD132
5.3.6 保存RDD檢查點(diǎn)132
5.3.7 練習(xí):保存RDD檢查點(diǎn)134
5.4 使用外部程序處理RDD136
5.5 使用Spark進(jìn)行數(shù)據(jù)采樣137
5.6 理解Spark應(yīng)用與集群配置139
5.6.1 Spark環(huán)境變量139
5.6.2 Spark配置屬性143
5.7 Spark優(yōu)化146
5.7.1 早過(guò)濾,勤過(guò)濾147
5.7.2 優(yōu)化滿足結(jié)合律的操作147
5.7.3 理解函數(shù)和閉包的影響149
5.7.4 收集數(shù)據(jù)的注意事項(xiàng)150
5.7.5 使用配置參數(shù)調(diào)節(jié)和優(yōu)化應(yīng)用150
5.7.6 避免低效的分區(qū)151
5.7.7  應(yīng)用性能問(wèn)題診斷153
5.8 本章小結(jié)157
第6章 使用Spark進(jìn)行SQL與NoSQL編程159
6.1 Spark SQL簡(jiǎn)介159
6.1.1 Hive簡(jiǎn)介160
6.1.2 Spark SQL架構(gòu)164
6.1.3 DataFrame入門(mén)166
6.1.4 使用DataFrame177
6.1.5 DataFrame緩存、持久化與重新分區(qū)185
6.1.6 保存DataFrame輸出186
6.1.7 訪問(wèn)Spark SQL189
6.1.8 練習(xí):使用Spark SQL192
6.2 在Spark中使用NoSQL系統(tǒng)193
6.2.1 NoSQL簡(jiǎn)介194
6.2.2 在Spark中使用HBase195
6.2.3 練習(xí):在Spark中使用HBase198
6.2.4 在Spark中使用Cassandra200
6.2.5 在Spark中使用DynamoDB202
6.2.6 其他NoSQL平臺(tái)204
6.3 本章小結(jié)204
第7章 使用Spark處理流數(shù)據(jù)與消息207
7.1 Spark Streaming簡(jiǎn)介207
7.1.1 Spark Streaming架構(gòu)208
7.1.2 DStream簡(jiǎn)介209
7.1.3 練習(xí):Spark Streaming入門(mén)216
7.1.4 狀態(tài)操作217
7.1.5 滑動(dòng)窗口操作219
7.2 結(jié)構(gòu)化流處理221
7.2.1 結(jié)構(gòu)化流處理數(shù)據(jù)源222
7.2.2 結(jié)構(gòu)化流處理的數(shù)據(jù)輸出池223
7.2.3 輸出模式224
7.2.4 結(jié)構(gòu)化流處理操作225
7.3 在Spark中使用消息系統(tǒng)226
7.3.1 Apache Kafka227
7.3.2 練習(xí):在Spark中使用Kafka232
7.3.3 亞馬遜Kinesis235
7.4 本章小結(jié)238
第8章 Spark數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)簡(jiǎn)介241
8.1 Spark與R語(yǔ)言241
8.1.1 R語(yǔ)言簡(jiǎn)介242
8.1.2 通過(guò)R語(yǔ)言使用Spark248
8.1.3 練習(xí):在RStudio中使用SparkR255
8.2 Spark機(jī)器學(xué)習(xí)257
8.2.1 機(jī)器學(xué)習(xí)基礎(chǔ)257
8.2.2 使用Spark MLlib進(jìn)行機(jī)器學(xué)習(xí)260
8.2.3 練習(xí):使用Spark MLlib實(shí)現(xiàn)推薦器265
8.2.4 使用Spark ML進(jìn)行機(jī)器學(xué)習(xí)269
8.3 利用筆記本使用Spark273
8.3.1 利用Jupyter(IPython)筆記本使用Spark273
8.3.2 利用Apache Zeppelin筆記本使用Spark276
8.4 本章小結(jié)277


Contents
I: Spark Foundations
1 Introducing Big Data, Hadoop, and Spark 3
Introduction to

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)