注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數(shù)據庫Spark SQL大數(shù)據分析快速上手

Spark SQL大數(shù)據分析快速上手

Spark SQL大數(shù)據分析快速上手

定 價:¥89.00

作 者: 遲殿委,王澤慧,黃茵茵
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302674863 出版時間: 2024-11-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  本書內容基于Spark新版本展開,符合企業(yè)目前開發(fā)需要。本書全面講解Spark SQL相關知識和實戰(zhàn)應用,各章均提供較為豐富的案例及其詳細的操作步驟,并配套示例源碼、數(shù)據集、PPT課件和教學大綱。本書共10章。第1~3章為Spark SQL的基礎準備部分,內容包括Spark SQL的發(fā)展和簡介、Spark的典型數(shù)據容器及關系、Spark概述與環(huán)境搭建、Spark典型數(shù)據結構RDD;第4~7章為Spark SQL的基礎應用部分,內容包括Spark SQL入門實戰(zhàn)(包括Scala編程基礎)、SQL基礎語法、操作多數(shù)據源、SparkSQL性能調優(yōu)等;第8~10章分別通過影評數(shù)據分析、商品統(tǒng)計數(shù)據分析、咖啡銷售數(shù)據分析等3個實戰(zhàn)項目進行鞏固提升。本書內容翔實、示例豐富,既可作為Spark初學者、大數(shù)據分析人員、大數(shù)據應用開發(fā)人員的自學手冊,也可作為高等院?;蚋呗毟邔T盒S嬎銠C、軟件工程、數(shù)據科學與大數(shù)據技術、智能科學與技術、人工智能等專業(yè)大數(shù)據課程的教材。本書封面貼有清華大學出版社防偽標簽,無標簽者不得銷售。版權所有,侵權必究。舉報:010-62782989,beiqinquan@tup.tsinghua.edu.cn。

作者簡介

  遲殿委,計算機軟件與理論專業(yè)碩士,系統(tǒng)架構設計師。有多年企業(yè)軟件研發(fā)經驗和豐富的JavaEE、大數(shù)據技術培訓經驗,熟練掌握JavaEE與大數(shù)據全棧技術框架,擅長JavaEE系統(tǒng)架構設計、大數(shù)據分析與挖掘。著有圖書《Hive入門與大數(shù)據分析實戰(zhàn)》《Hadoop大數(shù)據分析技術》《Hadoop Spark大數(shù)據分析實戰(zhàn)》《Spring Boot企業(yè)級開發(fā)實戰(zhàn)(視頻教學版)》《深入淺出Java編程》《Spring Boot Spring Cloud微服務開發(fā)》。

圖書目錄

目 錄
第 1 章 Spark SQL概述 1
1.1 Spark SQL簡介 1
1.1.1 什么是Spark SQL 1
1.1.2 Spark SQL的特點 2
1.2 Spark數(shù)據容器 4
1.2.1 什么是DataFrame 4
1.2.2 什么是DataSet 5
1.2.3 Spark SQL與DataFrame 6
1.2.4 DataFrame與RDD的差異 6
第 2 章 Spark概述及環(huán)境搭建 8
2.1 Spark概述 8
2.1.1 關于Spark 8
2.1.2 Spark的基本概念 9
2.1.3 Spark集群相關知識 11
2.2 Linux環(huán)境搭建 16
2.2.1 VirtualBox虛擬機的安裝 16
2.2.2 安裝Linux操作系統(tǒng) 18
2.2.3 SSH工具與使用 24
2.2.4 Linux的統(tǒng)一設置 26
2.3 Hadoop完全分布式環(huán)境搭建 28
2.4 Spark的安裝與配置 33
2.4.1 本地模式安裝 34
2.4.2 偽分布模式安裝 36
2.4.3 完全分布模式安裝 39
2.4.4 Spark on YARN 41
2.5 Spark的任務提交 45
2.5.1 使用spark-submit提交 45
2.5.2 spark-submit參數(shù)說明 46
第 3 章 Spark的典型數(shù)據結構RDD 49
3.1 什么是RDD 49
3.2 RDD的主要屬性 50
3.3 RDD的特點 51
3.4 RDD的創(chuàng)建與處理過程 54
3.4.1 RDD的創(chuàng)建 55
3.4.2 RDD的處理過程 55
3.4.3 RDD的算子 56
第 4 章 Spark SQL入門實戰(zhàn) 65
4.1 DataFrame和DataSet實戰(zhàn)體驗 65
4.1.1 SparkSession 65
4.1.2 DataFrame應用 66
4.1.3 DataSet應用 72
4.1.4 DataFrame和DataSet之間的交互 74
4.2 Scala開發(fā)環(huán)境搭建及其基礎編程 74
4.2.1 開發(fā)環(huán)境搭建 75
4.2.2 Scala基礎編程 78
4.3 Spark SQL實戰(zhàn)入門體驗 94
第 5 章 Spark SQL語法基礎及應用 101
5.1 Hive安裝與元數(shù)據存儲配置 101
5.1.1 安裝Hive 101
5.1.2 配置MySQL存儲元數(shù)據 104
5.2 Spark SQL DML語句 107
5.2.1 插入數(shù)據 107
5.2.2 加載數(shù)據 110
5.3 Spark SQL查詢語句 111
5.4 Spark SQL函數(shù)操作 115
5.4.1 內置函數(shù)及使用 115
5.4.2 自定義函數(shù) 126
第 6 章 Spark SQL數(shù)據源 131
6.1 Spark SQL數(shù)據加載、存儲概述 131
6.1.1 通用load/save函數(shù) 131
6.1.2 手動指定選項 133
6.1.3 在文件上直接進行SQL查詢 133
6.1.4 存儲模式 133
6.1.5 持久化到表 134
6.1.6 桶、排序、分區(qū)操作 135
6.2 Spark SQL常見結構化數(shù)據源 135
6.2.1 Parquet文件 135
6.2.2 JSON 數(shù)據集 140
6.2.3 Hive表 141
6.2.4 其他關系數(shù)據庫中的數(shù)據表 144
第 7 章 Spark SQL性能調優(yōu) 148
7.1 Spark執(zhí)行流程 148
7.2 Spark內存管理 149
7.3 Spark的一些概念 150
7.4 Spark開發(fā)原則 151
7.5 Spark調優(yōu)方法 157
7.6 數(shù)據傾斜調優(yōu) 168
7.7 Spark執(zhí)行引擎Tungsten簡介 172
7.8 Spark SQL解析引擎Catalyst簡介 173
第 8 章 Spark SQL影評大數(shù)據分析項目實戰(zhàn) 177
8.1 項目介紹 177
8.2 項目實現(xiàn) 179
8.2.1 引入依賴 179
8.2.2 公共類開發(fā) 184
8.2.3 需求1的實現(xiàn) 187
8.2.4 需求2的實現(xiàn) 191
8.2.5 需求3的實現(xiàn) 194
第 9 章 Spark SQL商品統(tǒng)計分析項目實戰(zhàn) 198
9.1 項目介紹 198
9.2 項目實現(xiàn) 201
9.2.1 引入依賴 201
9.2.2 環(huán)境測試 202
9.2.3 Spark SQL初始化數(shù)據 203
9.2.4 Spark SQL商品數(shù)據分析 206
第 10 章 Spark SQL咖啡銷售數(shù)據分析項目實戰(zhàn) 211
10.1 項目介紹 211
10.2 數(shù)據預處理與數(shù)據分析 212
10.2.1 查看咖啡銷售量排名 213
10.2.2 觀察咖啡銷售量的分布情況 214
10.3 數(shù)據可視化 218

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號