123,123,123

內(nèi)容簡介

　　本書在介紹大數(shù)據(jù)發(fā)展背景、特點(diǎn)及主要技術(shù)層面的基礎(chǔ)上，對(duì)大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、常見計(jì)算模式和典型系統(tǒng)工具進(jìn)行了分析介紹。本書同時(shí)對(duì)各種典型系統(tǒng)工具進(jìn)行了講解，包括大數(shù)據(jù)查詢分析計(jì)算及典型工具（HBase、Hive）、批處理計(jì)算及典型工具（MapReduce、Spark）、流式計(jì)算及典型工具（Storm、Apex、Flink）、事件流及典型工具（Druid）等。本書提供了大量的實(shí)例和源代碼供讀者參考，指導(dǎo)讀者快速、無障礙地了解和掌握常見大數(shù)據(jù)分析工具的使用。本書適合作為計(jì)算機(jī)及相關(guān)專業(yè)的教學(xué)用書，也可以作為大數(shù)據(jù)初學(xué)者的自學(xué)教材和參考手冊(cè)。

作者簡介

　　陳志德，2005年至今在福建師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院工作，任計(jì)算機(jī)系副主任。主要研究方向包括網(wǎng)絡(luò)與信息安全、物聯(lián)網(wǎng)與移動(dòng)計(jì)算等，指導(dǎo)碩士研究生20多人，指導(dǎo)研究生的學(xué)位論文曾獲校優(yōu)秀碩士論文一等獎(jiǎng)。近年來主持福建省自然科學(xué)基金、福建省科技廳K類基金等項(xiàng)目10項(xiàng)，參與國家自然科學(xué)基金和省科技廳高校產(chǎn)學(xué)合作科技重大項(xiàng)目課題各1項(xiàng)。出版學(xué)術(shù)專著2本，教材1本。在Journal of Computer and System Sciences、Concurrency and Computation： Practice and Experience等期刊發(fā)表學(xué)術(shù)論文40多篇，申請(qǐng)專利10多項(xiàng)，軟件著作權(quán)10多項(xiàng)。擔(dān)任CTCIS和NSS等國內(nèi)和國際學(xué)術(shù)會(huì)議的程序委員會(huì)委員。

圖書目錄

第1章　大數(shù)據(jù)概述　　1
1.1　大數(shù)據(jù)的發(fā)展　1
1.2　大數(shù)據(jù)的概念及特征　2
1.2.1　大數(shù)據(jù)的概念　2
1.2.2　大數(shù)據(jù)的特征　2
1.3　大數(shù)據(jù)的產(chǎn)生及數(shù)據(jù)類型　3
1.3.1　大數(shù)據(jù)的產(chǎn)生　3
1.3.2　數(shù)據(jù)類型　3
1.4　大數(shù)據(jù)計(jì)算模式和系統(tǒng)　4
1.5　大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容　4
1.6　大數(shù)據(jù)的典型應(yīng)用　6
1.7　本章小結(jié)　7
第2章　數(shù)據(jù)獲取　8
2.1　Scrapy環(huán)境搭建　8
2.2　爬蟲項(xiàng)目創(chuàng)建　8
2.3　采集目標(biāo)數(shù)據(jù)項(xiàng)定義　10
2.4　爬蟲核心實(shí)現(xiàn)　11
2.5　數(shù)據(jù)存儲(chǔ)　15
2.6　爬蟲運(yùn)行　17
2.7　本章小結(jié)　18
第3章　Hadoop基礎(chǔ)　19
3.1　Hadoop概述　19
3.2　Hadoop原理　20
3.2.1　Hadoop HDFS原理　20
3.2.2　Hadoop MapReduce原理　21
3.2.3　Hadoop YARN原理　22
3.3　Hadoop的安裝與配置　24
3.4　Hadoop生態(tài)系統(tǒng)簡介　46
3.5　本章小結(jié)　47
第4章　HDFS基本應(yīng)用　48
4.1　實(shí)戰(zhàn)命令行接口　48
4.2　實(shí)戰(zhàn)Java接口　52
4.3　數(shù)據(jù)流　60
4.3.1　數(shù)據(jù)流簡介　60
4.3.2　數(shù)據(jù)流讀取　61
4.3.3　數(shù)據(jù)流寫入　62
4.4　本章小結(jié)　64
第5章　MapReduce應(yīng)用開發(fā)　65
5.1　配置Hadoop MapReduce開發(fā)環(huán)境　65
5.1.1　系統(tǒng)環(huán)境及所需文件　65
5.1.2　安裝Eclipse　65
5.1.3　向Eclipse中添加插件　66
5.2　編寫和運(yùn)行第一個(gè)MapReduce程序前的準(zhǔn)備　69
5.2.1　系統(tǒng)環(huán)境及所需要的文件　69
5.2.2　建立運(yùn)行MapReduce程序的依賴環(huán)境　69
5.2.3　建立編寫MapReduce程序的依賴包　70
5.3　MapReduce應(yīng)用案例　78
5.3.1　單詞計(jì)數(shù)　78
5.3.2　數(shù)據(jù)去重　82
5.3.3　排序　85
5.3.4　單表關(guān)聯(lián)　89
5.3.5　多表關(guān)聯(lián)　95
5.4　本章小結(jié)　102
第6章　分布式數(shù)據(jù)庫HBase　103
6.1　HBase簡介　103
6.2　HBase接口　103
6.3　安裝HBase集群　104
6.3.1　系統(tǒng)環(huán)境　104
6.3.2　安裝ZooKeeper　104
6.3.3　安裝HBase　106
6.4　HBase Shell　108
6.5　HBase API　110
6.6　HBase綜合實(shí)例　113
6.7　本章小結(jié)　118
第7章　數(shù)據(jù)倉庫工具Hive　119
7.1　Hive簡介　119
7.2　Hive接口實(shí)戰(zhàn)　119
7.3　Hive復(fù)雜語句實(shí)戰(zhàn)　124
7.4　Hive綜合實(shí)例　127
7.4.1　準(zhǔn)備數(shù)據(jù)　127
7.4.2　在Hive上創(chuàng)建數(shù)據(jù)庫和表　128
7.4.3　導(dǎo)入數(shù)據(jù)　129
7.4.4　算法分析與執(zhí)行HQL語句　130
7.4.5　運(yùn)行結(jié)果分析　131
7.5　本章小結(jié)　132
第8章　開源集群計(jì)算環(huán)境Spark　133
8.1　Spark簡介　133
8.2　Spark接口實(shí)戰(zhàn)　133
8.2.1　環(huán)境要求　133
8.2.2　IDEA使用和打包　134
8.3　Spark編程的RDD　137
8.3.1　RDD　137
8.3.2　創(chuàng)建RDD　138
8.3.3　RDD中與Map和Reduce相關(guān)的API　138
8.4　Spark實(shí)戰(zhàn)案例——統(tǒng)計(jì)1000萬人口的平均年齡　141
8.4.1　案例描述　141
8.4.2　案例分析　143
8.4.3　編程實(shí)現(xiàn)　143
8.4.4　提交到集群運(yùn)行　144
8.4.5　監(jiān)控執(zhí)行狀態(tài)　144
8.5　Spark MLlib實(shí)戰(zhàn)——聚類實(shí)戰(zhàn)　145
8.5.1　算法說明　145
8.5.2　實(shí)例介紹　145
8.5.3　測試數(shù)據(jù)說明　146
8.5.4　程序源碼　146
8.5.5　運(yùn)行腳本　148
8.6　本章小結(jié)　150
第9章　流實(shí)時(shí)處理系統(tǒng)Storm　152
9.1　Storm概述　152
9.1.1　Storm簡介　152
9.1.2　Storm主要特點(diǎn)　152
9.2　Storm安裝與配置　153
9.3　本章小結(jié)　160
第10章　企業(yè)級(jí)、大數(shù)據(jù)流處理 Apex　161
10.1　Apache Apex簡介　161
10.2　Apache Apex開發(fā)環(huán)境配置　161
10.2.1　部署開發(fā)工具　161
10.2.2　安裝Apex組件　162
10.2.3　創(chuàng)建Top N Words應(yīng)用　164
10.3　運(yùn)行TopN Words應(yīng)用　166
10.3.1　開啟Apex客戶端　166
10.3.2　執(zhí)行　166
10.4　本章小結(jié)　167
第11章　事件流OLAP之Druid　168
11.1　Druid簡介　168
11.2　Druid應(yīng)用場所　168
11.3　Druid集群　169
11.4　Druid單機(jī)環(huán)境　170
11.4.1　安裝Druid　170
11.4.2　安裝ZooKeeper　170
11.4.3　啟動(dòng)Druid服務(wù)　171
11.4.4　批量加載數(shù)據(jù)　172
11.4.5　加載流數(shù)據(jù)　175
11.4.6　數(shù)據(jù)查詢　177
11.5　本章小結(jié)　180
第12章　事件數(shù)據(jù)流引擎Flink　181
12.1　Flink概述　181
12.2　Flink基本架構(gòu)　181
12.3　單機(jī)安裝Flink　182
12.4　Flink運(yùn)行第一個(gè)例子　184
12.5　Flink集群部署　187
12.5.1　環(huán)境準(zhǔn)備　187
12.5.2　安裝和配置　187
12.5.3　啟動(dòng)Flink集群　188
12.5.4　集群中添加JobManager/TaskManager　189
12.6　本章小結(jié)　189
第13章　分布式文件搜索 Elasticsearch　190
13.1　Elasticsearch簡介　190
13.2　Elasticsearch單節(jié)點(diǎn)安裝　192
13.3　插件Elasticsearch-head安裝　193
13.4　Elasticsearch的基本操作　195
13.5　綜合實(shí)戰(zhàn)　199
13.6　本章小結(jié)　202
第14章　實(shí)例電商數(shù)據(jù)分析　203
14.1　背景與挖掘目標(biāo)　203
14.2　分析方法與過程　203
14.2.1　數(shù)據(jù)收集　203
14.2.2　數(shù)據(jù)預(yù)處理　206
14.2.3　導(dǎo)入數(shù)據(jù)到Hadoop　206
14.2.4　數(shù)據(jù)取樣分析　209
14.3　本章小結(jié)　211
參考文獻(xiàn)　212

作　者：	陳志德曾燕清李翔宇
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	工學(xué) 教材研究生/本科/專科教材

ISBN：	9787115443472	出版時(shí)間：	2017-01-01	包裝：	平裝
開本：	16開	頁數(shù)：	212	字?jǐn)?shù)：

大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

超級(jí)PPT：讓PPT脫穎而出的制作密…

數(shù)據(jù)高效匯總與分析：Excel數(shù)據(jù)…

一圖抵萬言：Excel數(shù)據(jù)分析可視…

從超繁到極簡：Excel高效辦公實(shí)…

Excel電商數(shù)據(jù)分析基礎(chǔ)與實(shí)踐

WPSAI智能辦公從入門到精通

DeepSeek極速辦公：告別內(nèi)卷，讓…

流量的邏輯：構(gòu)建平臺(tái)流量機(jī)制的…

Office 2019辦公應(yīng)用一本通

零基礎(chǔ)五筆打字+電腦辦公：從入…