注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡家庭與辦公軟件大數(shù)據(jù)技術(shù)基礎

大數(shù)據(jù)技術(shù)基礎

大數(shù)據(jù)技術(shù)基礎

定 價:¥39.00

作 者: 中科普開
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302437574 出版時間: 2016-06-01 包裝:
開本: 16開 頁數(shù): 247 字數(shù):  

內(nèi)容簡介

  本書的知識架構(gòu)是在培訓了多屆學員的基礎上總結(jié)整理得來的,已經(jīng)經(jīng)過了實踐的考驗,證實了其科學性;本書當中的案例都為企業(yè)實際開發(fā)的案例,通過學習這些大量的實際案例,幫助學生在進入企業(yè)后可以很快融入大數(shù)據(jù)工作崗位。本書包括大數(shù)據(jù)概論、初識Hadoop、認識HDFS、HDFS的運行機制、訪問HDFS、HadoopI/O詳解、認識MapReduce編程模型、MapReduce應用編程開發(fā)、MapReduce的工作機制與YARN平臺、MapReduce高級開發(fā)、MapReduce實例共11章內(nèi)容。本書既可作為高等院校學習大數(shù)據(jù)技術(shù)的教材,亦可作為廣大大數(shù)據(jù)技術(shù)學習者的入門用書。

作者簡介

  中科普開(北京)科技有限公司成立于2010年,是國內(nèi)致力于IT新技術(shù)傳播、普及的領(lǐng)航者,專注于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)技術(shù)的培訓及咨詢服務。

圖書目錄

第1章大數(shù)據(jù)概論001
1.1大數(shù)據(jù)時代背景001
1.1.1大數(shù)據(jù)的數(shù)據(jù)源001
1.1.2大數(shù)據(jù)的價值和影響002
1.1.3大數(shù)據(jù)技術(shù)應用場景003
1.1.4大數(shù)據(jù)技術(shù)的發(fā)展前景004
1.2大數(shù)據(jù)基本概念005
1.2.1大數(shù)據(jù)定義005
1.2.2大數(shù)據(jù)結(jié)構(gòu)類型007
1.2.3大數(shù)據(jù)核心特征007
1.2.4大數(shù)據(jù)技術(shù)008
1.2.5行業(yè)應用大數(shù)據(jù)實例010
1.3大數(shù)據(jù)系統(tǒng)011
1.3.1設計目標和原則011
1.3.2當前大數(shù)據(jù)系統(tǒng)012
1.4大數(shù)據(jù)與企業(yè)016
1.4.1大數(shù)據(jù)對企業(yè)的挑戰(zhàn)性016
1.4.2企業(yè)大數(shù)據(jù)的發(fā)展方向019
1.4.3企業(yè)大數(shù)據(jù)觀020
本章小結(jié)020
習題021
第2章初識Hadoop022
2.1Hadoop簡介022
2.1.1Hadoop概況022
2.1.2Hadoop的功能和作用023
2.1.3Hadoop的優(yōu)勢023
2.1.4Hadoop的發(fā)展史024
2.1.5Hadoop的應用前景025
2.2深入了解Hadoop025
2.2.1Hadoop的體系結(jié)構(gòu)025
2.2.2Hadoop與分布式開發(fā)027
2.2.3Hadoop生態(tài)系統(tǒng)029
2.3Hadoop與其他系統(tǒng)030
2.3.1Hadoop與關(guān)系型數(shù)據(jù)庫管理系統(tǒng)030
2.3.2Hadoop與云計算032
2.4Hadoop應用案例032
2.4.1Hadoop在百度的應用032
2.4.2Hadoop在Yahoo!的應用033
2.4.3Hadoop在eBay的應用035
本章小結(jié)037
習題037
大數(shù)據(jù)
技術(shù)基礎
目錄
第3章認識HDFS039
3.1HDFS簡介039
3.2HDFS的特性和設計目標040
3.2.1HDFS的特性040
3.2.2HDFS的設計目標041
3.3HDFS的核心設計042
3.3.1數(shù)據(jù)塊042
3.3.2數(shù)據(jù)復制042
3.3.3數(shù)據(jù)副本的存放策略043
3.3.4機架感知045
3.3.5安全模式046
3.3.6負載均衡047
3.3.7心跳機制048
3.4HDFS的體系結(jié)構(gòu)049
3.4.1Master/Slave架構(gòu)049
3.4.2NameNode、SecondaryNameNode、DataNode050
本章小結(jié)055
習題055
第4章HDFS的運行機制056
4.1HDFS中數(shù)據(jù)流的讀寫056
4.1.1RPC實現(xiàn)流程056
4.1.2RPC實現(xiàn)模型057
4.1.3文件的讀取059
4.1.4文件的寫入060
4.1.5文件的一致模型061
4.2HDFS的HA機制062
4.2.1為什么有HA機制062
4.2.2HA集群和架構(gòu)063
4.3HDFS的Federation機制064
4.3.1為什么引入Federation機制064
4.3.2Federation架構(gòu)066
4.3.3多命名空間管理067
本章小結(jié)067
習題068
第5章訪問HDFS069
5.1命令行常用接口069
5.1.1HDFS操作體驗069
5.1.2HDFS常用命令071
5.2Java接口073
5.2.1從Hadoop URL中讀取數(shù)據(jù)074
5.2.2通過FileSystem API讀取數(shù)據(jù)075
5.2.3寫入數(shù)據(jù)076
5.2.4創(chuàng)建目錄078
5.2.5查詢文件系統(tǒng)078
5.2.6刪除數(shù)據(jù)081
5.3其他常用接口081
5.3.1Thrift081
5.3.2C語言082
5.3.3HTTP082
本章小結(jié)082
習題083
第6章Hadoop I/O詳解084
6.1數(shù)據(jù)完整性084
6.1.1HDFS的數(shù)據(jù)完整性084
6.1.2驗證數(shù)據(jù)完整性085
6.2文件壓縮086
6.2.1Hadoop支持的壓縮格式086
6.2.2壓縮解壓縮算法codec087
6.2.3壓縮和輸入分片091
6.3文件序列化092
6.3.1Writable接口093
6.3.2WritableComparable接口094
6.3.3Writable實現(xiàn)類095
6.3.4自定義Writable接口100
6.3.5序列化框架104
6.4Hadoop文件的數(shù)據(jù)結(jié)構(gòu)104
6.4.1SequenceFile存儲104
6.4.2MapFile存儲108
本章小結(jié)111
習題111第7章識識MapReduce編程模型113
7.1MapReduce編程模型簡介113
7.1.1什么是MapReduce113
7.1.2MapReduce程序的設計方法114
7.1.3新舊MapReduce簡介115
7.1.4Hadoop MapReduce架構(gòu)116
7.1.5MapReduce的優(yōu)缺點117
7.2WordCount編程實例118
7.2.1WordCount的設計思路118
7.2.2編寫WordCount代碼118
7.2.3運行程序119
7.2.4代碼講解120
7.3MapReduce的編程122
7.3.1配置開發(fā)環(huán)境122
7.3.2編寫Mapper類124
7.3.3編寫Reducer類125
7.3.4編寫main函數(shù)125
7.4MapReduce在集群上的運作127
7.4.1作業(yè)的打包和啟動127
7.4.2MapReduce的Web界面128
7.4.3獲取結(jié)果130
本章小結(jié)131
習題131
第8章MapReduce應用編程開發(fā)132
8.1MapReduce類型與格式132
8.1.1MapReduce的類型132
8.1.2輸入格式137
8.1.3輸出格式148
8.2Java API解析150
8.2.1作業(yè)配置與提交151
8.2.2InputFormat接口的設計與實現(xiàn)152
8.2.3OutputFormat接口的設計與實現(xiàn)157
8.2.4Mapper與Reducer解析159
本章小結(jié)163
習題163
第9MapReduce的工作機制與YARN平臺165
9.1YARN平臺簡介165
9.1.1YARN的誕生165
9.1.2YARN的作用166
9.2YARN的架構(gòu)166
9.2.1ResourceManager167
9.2.2ApplicationMaster168
9.2.3NodeManager168
9.2.4資源模型169
9.2.5ResourceRequest和Container169
9.2.6Container規(guī)范170
9.3剖析MapReduce作業(yè)運行機制170
9.4基于YARN的運行機制剖析171
9.5Shuffle和排序175
9.5.1map端175
9.5.2reduce端176
9.6任務的執(zhí)行178
9.6.1任務執(zhí)行環(huán)境178
9.6.2推測執(zhí)行179
9.6.3關(guān)于OutputCommitters180
9.6.4任務JVM重用181
9.6.5跳過壞記錄182
9.7作業(yè)的調(diào)度182
9.7.1公平調(diào)度器183
9.7.2容量調(diào)度器183
9.8在YARN上運行MapReduce實例184
9.8.1運行Pi實例184
9.8.2使用Web GUI監(jiān)控實例185
本章小結(jié)189
習題190
第10章MapReduce高級開發(fā)191
10.1計數(shù)器191
10.1.1內(nèi)置計數(shù)器191
10.1.2自定義的Java計數(shù)器193
10.2數(shù)據(jù)去重194
10.2.1實例描述194
10.2.2設計思路194
10.2.3程序代碼194
10.3排序195
10.3.1實例描述196
10.3.2設計思路196
10.3.3程序代碼196
10.4二次排序197
10.4.1二次排序原理197
10.4.2二次排序的算法流程198
10.4.3代碼實現(xiàn)199
10.5平均值202
10.5.1實例描述202
10.5.2設計思路202
10.5.3程序代碼203
10.6Join聯(lián)接204
10.6.1Map端Join204
10.6.2Reduce端Join205
10.6.3Join實現(xiàn)表關(guān)聯(lián)205
10.7倒排索引209
10.7.1倒排索引的分析和設計209
10.7.2倒排索引完整源碼213
10.7.3運行代碼結(jié)果214
本章小結(jié)215
習題215
第11章MapReduce實例216
11.1搜索引擎日志處理216
11.1.1背景介紹216
11.1.2數(shù)據(jù)收集216
11.1.3數(shù)據(jù)結(jié)構(gòu)216
11.1.4需求分析217
11.1.5MapReduce編碼實現(xiàn)217
11.2汽車銷售數(shù)據(jù)分析223
11.2.1背景介紹224
11.2.2數(shù)據(jù)收集224
11.2.3數(shù)據(jù)結(jié)構(gòu) 224
11.2.4需求分析224
11.2.5MapReduce編碼實現(xiàn)225
11.3農(nóng)產(chǎn)品價格分析234
11.3.1背景介紹234
11.3.2數(shù)據(jù)收集235
11.3.3數(shù)據(jù)結(jié)構(gòu)235
11.3.4需求分析236
11.3.5MapReduce編碼實現(xiàn)236
參考文獻248

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號