注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫Spark入門與大數(shù)據(jù)分析實戰(zhàn)

Spark入門與大數(shù)據(jù)分析實戰(zhàn)

Spark入門與大數(shù)據(jù)分析實戰(zhàn)

定 價:¥79.00

作 者: 遲殿委 李超
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302637981 出版時間: 2023-07-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《Spark入門與大數(shù)據(jù)分析實戰(zhàn)》基于Spark 3.3.1框架展開,系統(tǒng)介紹Spark生態(tài)系統(tǒng)各組件的操作,以及相應(yīng)的大數(shù)據(jù)分析方法?!禨park入門與大數(shù)據(jù)分析實戰(zhàn)》各章節(jié)均提供豐富的示例及其詳細的操作步驟,并配套示例源碼、PPT課件和教學大綱?!禨park入門與大數(shù)據(jù)分析實戰(zhàn)》共分11章,內(nèi)容包括Scala編程基礎(chǔ)、Spark框架全生態(tài)體驗、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技術(shù)框架和應(yīng)用,并通過廣告點擊實時大數(shù)據(jù)分析和電影影評大數(shù)據(jù)分析兩個綜合項目進行實戰(zhàn)提升?!禨park入門與大數(shù)據(jù)分析實戰(zhàn)》適合Spark框架初學者,既可以作為大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)應(yīng)用開發(fā)工程師的查詢手冊,也可以作為高等院?;蚋呗毟邔S嬎銠C技術(shù)、軟件工程、數(shù)據(jù)科學與大數(shù)據(jù)科學、智能科學與技術(shù)、人工智能等專業(yè)大數(shù)據(jù)課程的教材。

作者簡介

  遲殿委,計算機軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計師。有多年企業(yè)軟件研發(fā)經(jīng)驗和豐富的JavaEE、大數(shù)據(jù)技術(shù)培訓經(jīng)驗,熟練掌握JavaEE與大數(shù)據(jù)全棧技術(shù)框架,擅長JavaEE系統(tǒng)架構(gòu)設(shè)計、大數(shù)據(jù)分析與挖掘。著有圖書《Hive入門與大數(shù)據(jù)分析實戰(zhàn)》《Hadoop大數(shù)據(jù)分析技術(shù)》《Hadoop Spark大數(shù)據(jù)分析實戰(zhàn)》《Spring Boot企業(yè)級開發(fā)實戰(zhàn)(視頻教學版)》《深入淺出Java編程》《Spring Boot Spring Cloud微服務(wù)開發(fā)》。

圖書目錄

第1章  Spark開發(fā)之Scala編程基礎(chǔ) 1
1.1  開發(fā)環(huán)境搭建 1
1.2  基礎(chǔ)語法 4
1.3  函數(shù) 7
1.4  控制語句 9
1.5  函數(shù)式編程 12
1.6  模式匹配 17
1.7  類和對象 18
1.8  異常處理 22
1.9  Trait(特征) 23
1.10  文件I/O 24
第2章  Spark框架全生態(tài)體驗 26
2.1  Spark概述 26
2.1.1  關(guān)于Spark 26
2.1.2  Spark的基本概念 27
2.1.3  Spark集群模式 28
2.2  Linux環(huán)境搭建 33
2.2.1  VirtualBox虛擬機安裝 33
2.2.2  安裝Linux操作系統(tǒng) 35
2.2.3  SSH工具與使用 42
2.2.4  Linux統(tǒng)一設(shè)置 43
2.3  Hadoop安裝與配置 45
2.3.1  Hadoop安裝環(huán)境準備 45
2.3.2  Hadoop偽分布式安裝 49
2.3.3  Hadoop完全分布式環(huán)境搭建 55
2.4  Spark安裝與配置 60
2.4.1  本地模式安裝 61
2.4.2  偽分布模式安裝 63
2.4.3  完全分布模式安裝 66
2.4.4  Spark on YARN 68
2.5  spark-submit 72
2.5.1  使用spark-submit提交 72
2.5.2  spark-submit參數(shù)說明 73
2.6  DataFrame 75
2.6.1  DataFrame概述 75
2.6.2  DataFrame的基礎(chǔ)應(yīng)用 77
2.7  Spark SQL 82
2.7.1  快速示例 83
2.7.2  read和write 87
2.8  Spark Streaming 89
2.9  共享變量 92
2.9.1  廣播變量 92
2.9.2  累加器 93
第3章  Spark RDD彈性分布式數(shù)據(jù)集 94
3.1  什么是RDD 94
3.2  RDD的主要屬性 95
3.3  RDD的特點 96
3.3.1  彈性 96
3.3.2  分區(qū) 96
3.3.3  只讀 96
3.3.4  依賴(血緣) 96
3.3.5  緩存 98
3.3.6  checkpoint 99
3.4  RDD的創(chuàng)建與處理過程 99
3.4.1  RDD的創(chuàng)建 99
3.4.2  RDD的處理過程 99
3.4.3  RDD的算子 100
3.4.4  常見的轉(zhuǎn)換算子 100
3.4.5  常見的行動算子 105
第4章  Spark SQL結(jié)構(gòu)化數(shù)據(jù)文件處理 109
4.1  Spark SQL概述 109
4.1.1  什么是Spark SQL 109
4.1.2  Spark SQL的特點 110
4.1.3  什么是DataFrame 111
4.1.4  什么是DataSet 112
4.2  Spark SQL 編程 112
4.2.1  SparkSession 112
4.2.2  使用DataFrame進行編程 113
4.2.3  使用DataSet進行編程 118
4.2.4  DataFrame和DataSet之間的交互 120
4.2.5  使用IDEA創(chuàng)建Spark SQL程序 120
4.2.6  自定義Spark SQL函數(shù) 121
4.3  Spark SQL數(shù)據(jù)源 122
4.3.1  通用加載和保存函數(shù) 122
4.3.2  加載JSON文件 123
4.3.3  讀取Parquet文件 124
4.3.4  JDBC 124
第5章  Kafka實戰(zhàn) 127
5.1  Kafka的特點 128
5.2  Kafka術(shù)語 129
5.3  Kafka單機部署 130
5.4  Kafka集群部署 137
第6章  Spark Streaming實時計算 142
6.1  Spark Streaming概述 142
6.1.1  Spark Streaming是什么 142
6.1.2  Spark Streaming特點 143
6.1.3  Spark Streaming架構(gòu) 144
6.2  DStream入門 144
6.2.1  WordCount案例 145
6.2.2  WordCount案例解析 146
6.3  DStream創(chuàng)建 147
6.3.1  RDD隊列 147
6.3.2  自定義數(shù)據(jù)源 148
6.3.3  Kafka 數(shù)據(jù)源 150
6.4  DStream實戰(zhàn) 151
6.4.1  從端口讀取數(shù)據(jù) 151
6.4.2  FileStream 151
6.4.3  窗口函數(shù) 153
6.4.4  updateStateByKey 154
6.5  Structured Streaming 157
6.5.1  概述 157
6.5.2  快速示例 157
第7章  Spark ML機器學習 161
7.1  機器學習 161
7.2  Spark ML 163
7.3  典型機器學習流程介紹 163
7.3.1  提出問題 163
7.3.2  假設(shè)函數(shù) 164
7.3.3  損失函數(shù) 165
7.3.4  訓練模型確定參數(shù) 166
7.4  經(jīng)典算法模型實戰(zhàn) 166
7.4.1  聚類算法實戰(zhàn) 166
7.4.2  回歸算法實戰(zhàn) 170
7.4.3  協(xié)同過濾算法實戰(zhàn) 172
7.4.4  分類算法實戰(zhàn) 178
第8章  Spark GraphX圖計算 183
8.1  Spark GraphX 183
8.2  Spark GraphX的抽象 184
8.3  Spark GraphX圖的構(gòu)建 185
8.4  Spark GraphX圖的計算模式 187
8.5  GraphX 3個主要算法實戰(zhàn) 189
8.6  GraphX綜合應(yīng)用項目實戰(zhàn) 192
第9章  Redis數(shù)據(jù)庫入門 200
9.1  Redis環(huán)境安裝 200
9.1.1  簡介 200
9.1.2  安裝 201
9.1.3  Java客戶端 202
9.2  Redis常見數(shù)據(jù)類型 202
9.2.1  key 202
9.2.2  string類型 204
9.2.3  list 205
9.2.4  set 206
9.2.5  sorted set 208
9.2.6  hash 209
9.3  Redis排序 210
9.4  Redis事務(wù) 213
9.5  Redis發(fā)布訂閱及示例 216
9.6  Redis持久化 219
第10章  廣告點擊實時大數(shù)據(jù)分析項目實戰(zhàn) 221
10.1  項目環(huán)境準備 221
10.2  數(shù)據(jù)生成模塊 226
10.3  從Kafka讀取數(shù)據(jù) 230
10.3.1  bean類AdsInfo 230
10.3.2  工具類MyKafkaUtil 230
10.3.3  從Kafka消費數(shù)據(jù) 231
10.4  數(shù)據(jù)統(tǒng)計實現(xiàn) 233
10.4.1  每天每地區(qū)熱門廣告點擊率Top3 233
10.4.2  最近1小時內(nèi)廣告點擊量實時統(tǒng)計 234
第11章  電影影評大數(shù)據(jù)分析項目實戰(zhàn) 237
11.1  項目介紹 237
11.2  項目實現(xiàn) 238
11.2.1  公共代碼開發(fā) 241
11.2.2  平均評分最高的前10部電影 244
11.2.3  電影類別及其平均評分 247
11.2.4  評分次數(shù)最多的前10部電影 249

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號