注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)

大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)

大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)

定 價:¥39.80

作 者: 陳志德 曾燕清 李翔宇
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 工學(xué) 教材 研究生/本科/??平滩?/td>

ISBN: 9787115443472 出版時間: 2017-01-01 包裝: 平裝
開本: 16開 頁數(shù): 212 字?jǐn)?shù):  

內(nèi)容簡介

  本書在介紹大數(shù)據(jù)發(fā)展背景、特點及主要技術(shù)層面的基礎(chǔ)上,對大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲、常見計算模式和典型系統(tǒng)工具進行了分析介紹。本書同時對各種典型系統(tǒng)工具進行了講解,包括大數(shù)據(jù)查詢分析計算及典型工具(HBase、Hive)、批處理計算及典型工具(MapReduce、Spark)、流式計算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。本書提供了大量的實例和源代碼供讀者參考,指導(dǎo)讀者快速、無障礙地了解和掌握常見大數(shù)據(jù)分析工具的使用。本書適合作為計算機及相關(guān)專業(yè)的教學(xué)用書,也可以作為大數(shù)據(jù)初學(xué)者的自學(xué)教材和參考手冊。

作者簡介

  陳志德,2005年至今在福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院工作,任計算機系副主任。主要研究方向包括網(wǎng)絡(luò)與信息安全、物聯(lián)網(wǎng)與移動計算等,指導(dǎo)碩士研究生20多人,指導(dǎo)研究生的學(xué)位論文曾獲校優(yōu)秀碩士論文一等獎。近年來主持福建省自然科學(xué)基金、福建省科技廳K類基金等項目10項,參與國家自然科學(xué)基金和省科技廳高校產(chǎn)學(xué)合作科技重大項目課題各1項。出版學(xué)術(shù)專著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation: Practice and Experience等期刊發(fā)表學(xué)術(shù)論文40多篇,申請專利10多項,軟件著作權(quán)10多項。擔(dān)任CTCIS和NSS等國內(nèi)和國際學(xué)術(shù)會議的程序委員會委員。

圖書目錄

第1章 大數(shù)據(jù)概述  1
1.1 大數(shù)據(jù)的發(fā)展 1
1.2 大數(shù)據(jù)的概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的特征 2
1.3 大數(shù)據(jù)的產(chǎn)生及數(shù)據(jù)類型 3
1.3.1 大數(shù)據(jù)的產(chǎn)生 3
1.3.2 數(shù)據(jù)類型 3
1.4 大數(shù)據(jù)計算模式和系統(tǒng) 4
1.5 大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容 4
1.6 大數(shù)據(jù)的典型應(yīng)用 6
1.7 本章小結(jié) 7
第2章 數(shù)據(jù)獲取 8
2.1 Scrapy環(huán)境搭建 8
2.2 爬蟲項目創(chuàng)建 8
2.3 采集目標(biāo)數(shù)據(jù)項定義 10
2.4 爬蟲核心實現(xiàn) 11
2.5 數(shù)據(jù)存儲 15
2.6 爬蟲運行 17
2.7 本章小結(jié) 18
第3章 Hadoop基礎(chǔ) 19
3.1 Hadoop概述 19
3.2 Hadoop原理 20
3.2.1 Hadoop HDFS原理 20
3.2.2 Hadoop MapReduce原理 21
3.2.3 Hadoop YARN原理 22
3.3 Hadoop的安裝與配置 24
3.4 Hadoop生態(tài)系統(tǒng)簡介 46
3.5 本章小結(jié) 47
第4章 HDFS基本應(yīng)用 48
4.1 實戰(zhàn)命令行接口 48
4.2 實戰(zhàn)Java接口 52
4.3 數(shù)據(jù)流 60
4.3.1 數(shù)據(jù)流簡介 60
4.3.2 數(shù)據(jù)流讀取 61
4.3.3 數(shù)據(jù)流寫入 62
4.4 本章小結(jié) 64
第5章 MapReduce應(yīng)用開發(fā) 65
5.1 配置Hadoop MapReduce開發(fā)環(huán)境 65
5.1.1 系統(tǒng)環(huán)境及所需文件 65
5.1.2 安裝Eclipse 65
5.1.3 向Eclipse中添加插件 66
5.2 編寫和運行第一個MapReduce程序前的準(zhǔn)備 69
5.2.1 系統(tǒng)環(huán)境及所需要的文件 69
5.2.2 建立運行MapReduce程序的依賴環(huán)境 69
5.2.3 建立編寫MapReduce程序的依賴包 70
5.3 MapReduce應(yīng)用案例 78
5.3.1 單詞計數(shù) 78
5.3.2 數(shù)據(jù)去重 82
5.3.3 排序 85
5.3.4 單表關(guān)聯(lián) 89
5.3.5 多表關(guān)聯(lián) 95
5.4 本章小結(jié) 102
第6章 分布式數(shù)據(jù)庫HBase 103
6.1 HBase簡介 103
6.2 HBase接口 103
6.3 安裝HBase集群 104
6.3.1 系統(tǒng)環(huán)境 104
6.3.2 安裝ZooKeeper 104
6.3.3 安裝HBase 106
6.4 HBase Shell 108
6.5 HBase API 110
6.6 HBase綜合實例 113
6.7 本章小結(jié) 118
第7章 數(shù)據(jù)倉庫工具Hive 119
7.1 Hive簡介 119
7.2 Hive接口實戰(zhàn) 119
7.3 Hive復(fù)雜語句實戰(zhàn) 124
7.4 Hive綜合實例 127
7.4.1 準(zhǔn)備數(shù)據(jù) 127
7.4.2 在Hive上創(chuàng)建數(shù)據(jù)庫和表 128
7.4.3 導(dǎo)入數(shù)據(jù) 129
7.4.4 算法分析與執(zhí)行HQL語句 130
7.4.5 運行結(jié)果分析 131
7.5 本章小結(jié) 132
第8章 開源集群計算環(huán)境Spark 133
8.1 Spark簡介 133
8.2 Spark接口實戰(zhàn) 133
8.2.1 環(huán)境要求 133
8.2.2 IDEA使用和打包 134
8.3 Spark編程的RDD 137
8.3.1 RDD 137
8.3.2 創(chuàng)建RDD 138
8.3.3 RDD中與Map和Reduce相關(guān)的API 138
8.4 Spark實戰(zhàn)案例——統(tǒng)計1000萬人口的平均年齡 141
8.4.1 案例描述 141
8.4.2 案例分析 143
8.4.3 編程實現(xiàn) 143
8.4.4 提交到集群運行 144
8.4.5 監(jiān)控執(zhí)行狀態(tài) 144
8.5 Spark MLlib實戰(zhàn)——聚類實戰(zhàn) 145
8.5.1 算法說明 145
8.5.2 實例介紹 145
8.5.3 測試數(shù)據(jù)說明 146
8.5.4 程序源碼 146
8.5.5 運行腳本 148
8.6 本章小結(jié) 150
第9章 流實時處理系統(tǒng)Storm 152
9.1 Storm概述 152
9.1.1 Storm簡介 152
9.1.2 Storm主要特點 152
9.2 Storm安裝與配置 153
9.3 本章小結(jié) 160
第10章 企業(yè)級、大數(shù)據(jù)流處理 Apex 161
10.1 Apache Apex簡介 161
10.2 Apache Apex開發(fā)環(huán)境配置 161
10.2.1 部署開發(fā)工具 161
10.2.2 安裝Apex組件 162
10.2.3 創(chuàng)建Top N Words應(yīng)用 164
10.3 運行TopN Words應(yīng)用 166
10.3.1 開啟Apex客戶端 166
10.3.2 執(zhí)行 166
10.4 本章小結(jié) 167
第11章 事件流OLAP之Druid 168
11.1 Druid簡介 168
11.2 Druid應(yīng)用場所 168
11.3 Druid集群 169
11.4 Druid單機環(huán)境 170
11.4.1 安裝Druid 170
11.4.2 安裝ZooKeeper 170
11.4.3 啟動Druid服務(wù) 171
11.4.4 批量加載數(shù)據(jù) 172
11.4.5 加載流數(shù)據(jù) 175
11.4.6 數(shù)據(jù)查詢 177
11.5 本章小結(jié) 180
第12章 事件數(shù)據(jù)流引擎Flink 181
12.1 Flink概述 181
12.2 Flink基本架構(gòu) 181
12.3 單機安裝Flink 182
12.4 Flink運行第一個例子 184
12.5 Flink集群部署 187
12.5.1 環(huán)境準(zhǔn)備 187
12.5.2 安裝和配置 187
12.5.3 啟動Flink集群 188
12.5.4 集群中添加JobManager/TaskManager 189
12.6 本章小結(jié) 189
第13章 分布式文件搜索 Elasticsearch 190
13.1 Elasticsearch簡介 190
13.2 Elasticsearch單節(jié)點安裝 192
13.3 插件Elasticsearch-head安裝 193
13.4 Elasticsearch的基本操作 195
13.5 綜合實戰(zhàn) 199
13.6 本章小結(jié) 202
第14章 實例電商數(shù)據(jù)分析 203
14.1 背景與挖掘目標(biāo) 203
14.2 分析方法與過程 203
14.2.1 數(shù)據(jù)收集 203
14.2.2 數(shù)據(jù)預(yù)處理 206
14.2.3 導(dǎo)入數(shù)據(jù)到Hadoop 206
14.2.4 數(shù)據(jù)取樣分析 209
14.3 本章小結(jié) 211
參考文獻 212

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號