注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐

大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐

大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐

定 價(jià):¥79.00

作 者: 董西成 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111590729 出版時(shí)間: 2018-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 361 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)站在大數(shù)據(jù)落地應(yīng)用的角度,系統(tǒng)闡述大數(shù)據(jù)從數(shù)據(jù)收集,到數(shù)據(jù)存儲(chǔ)、分布式協(xié)調(diào)及資源管理、計(jì)算引擎、分析工具,再到數(shù)據(jù)可視化這一完整流程,本書(shū)既包含主要技術(shù)的實(shí)現(xiàn)原理及其框架,也包含了具體落地指導(dǎo),是幫助企業(yè)和個(gè)人整體了解大數(shù)據(jù)框架不可多得的參考書(shū)。本章主要包括6個(gè)部分共16章的內(nèi)容,其中:第壹部分介紹了大數(shù)據(jù)體系架構(gòu),以及Google和Hadoop技術(shù)棧;第二部分介紹大數(shù)據(jù)分析相關(guān)技術(shù),主要涉及關(guān)系型數(shù)據(jù)收集工具Sqoop與Canel、非關(guān)系型數(shù)據(jù)收集系統(tǒng)Flume以及分布式消息隊(duì)列Kafka;第三部分介紹大數(shù)據(jù)存儲(chǔ)相關(guān)技術(shù),涉及數(shù)據(jù)存儲(chǔ)格式、分布式文件系統(tǒng)以及分布式數(shù)據(jù)庫(kù);第四部分介紹資源管理和服務(wù)協(xié)調(diào)相關(guān)技術(shù),涉及資源管理和調(diào)度系統(tǒng)YARN以及資源協(xié)調(diào)系統(tǒng)ZooKeeper;第五部分介紹計(jì)算引擎相關(guān)技術(shù),涉及批處理、交互式處理以及流式實(shí)時(shí)處理三類(lèi)引擎;第六部分?jǐn)?shù)據(jù)分析相關(guān)技術(shù),涉及基于數(shù)據(jù)分析語(yǔ)言HQL與SQL、大數(shù)據(jù)統(tǒng)一編程模型及機(jī)器學(xué)習(xí)庫(kù)等。

作者簡(jiǎn)介

暫缺《大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐》作者簡(jiǎn)介

圖書(shū)目錄

目  錄?Contents
前 言
第一部分 概述篇
第1章 企業(yè)級(jí)大數(shù)據(jù)技術(shù)體系概述 2
1.1 大數(shù)據(jù)系統(tǒng)產(chǎn)生背景及應(yīng)用場(chǎng)景 2
1.1.1 產(chǎn)生背景 2
1.1.2 常見(jiàn)大數(shù)據(jù)應(yīng)用場(chǎng)景 3
1.2 企業(yè)級(jí)大數(shù)據(jù)技術(shù)框架 5
1.2.1 數(shù)據(jù)收集層 6
1.2.2 數(shù)據(jù)存儲(chǔ)層 7
1.2.3 資源管理與服務(wù)協(xié)調(diào)層 7
1.2.4 計(jì)算引擎層 8
1.2.5 數(shù)據(jù)分析層 9
1.2.6 數(shù)據(jù)可視化層 9
1.3 企業(yè)級(jí)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)方案 9
1.3.1 Google大數(shù)據(jù)技術(shù)棧 10
1.3.2 Hadoop與Spark開(kāi)源大數(shù)據(jù)技術(shù)棧 12
1.4 大數(shù)據(jù)架構(gòu):Lambda Architecture 15
1.5 Hadoop與Spark版本選擇及安裝部署 16
1.5.1 Hadoop與Spark版本選擇 16
1.5.2 Hadoop與Spark安裝部署 17
1.6 小結(jié) 18
1.7 本章問(wèn)題 18
第二部分 數(shù)據(jù)收集篇
第2章 關(guān)系型數(shù)據(jù)的收集 20
2.1 Sqoop概述 20
2.1.1 設(shè)計(jì)動(dòng)機(jī) 20
2.1.2 Sqoop基本思想及特點(diǎn) 21
2.2 Sqoop基本架構(gòu) 21
2.2.1 Sqoop1基本架構(gòu) 22
2.2.2 Sqoop2基本架構(gòu) 23
2.2.3 Sqoop1與Sqoop2對(duì)比 24
2.3 Sqoop使用方式 25
2.3.1 Sqoop1使用方式 25
2.3.2 Sqoop2使用方式 28
2.4 數(shù)據(jù)增量收集CDC 31
2.4.1 CDC動(dòng)機(jī)與應(yīng)用場(chǎng)景 31
2.4.2 CDC開(kāi)源實(shí)現(xiàn)Canal 32
2.4.3 多機(jī)房數(shù)據(jù)同步系統(tǒng)Otter 33
2.5 小結(jié) 35
2.6 本章問(wèn)題 35
第3章 非關(guān)系型數(shù)據(jù)的收集 36
3.1 概述 36
3.1.1 Flume設(shè)計(jì)動(dòng)機(jī) 36
3.1.2 Flume基本思想及特點(diǎn) 37
3.2 Flume NG基本架構(gòu) 38
3.2.1 Flume NG基本架構(gòu) 38
3.2.2 Flume NG高級(jí)組件 41
3.3 Flume NG數(shù)據(jù)流拓?fù)錁?gòu)建方法 42
3.3.1 如何構(gòu)建數(shù)據(jù)流拓?fù)?42
3.3.2 數(shù)據(jù)流拓?fù)鋵?shí)例剖析 46
3.4 小結(jié) 50
3.5 本章問(wèn)題 50
第4章 分布式消息隊(duì)列Kafka 51
4.1 概述 51
4.1.1 Kafka設(shè)計(jì)動(dòng)機(jī) 51
4.1.2 Kafka特點(diǎn) 53
4.2 Kafka設(shè)計(jì)架構(gòu) 53
4.2.1 Kafka基本架構(gòu) 54
4.2.2 Kafka各組件詳解 54
4.2.3 Kafka關(guān)鍵技術(shù)點(diǎn) 58
4.3 Kafka程序設(shè)計(jì) 60
4.3.1 Producer程序設(shè)計(jì) 61
4.3.2 Consumer程序設(shè)計(jì) 63
4.3.3 開(kāi)源Producer與Consumer實(shí)現(xiàn) 65
4.4 Kafka典型應(yīng)用場(chǎng)景 65
4.5 小結(jié) 67
4.6 本章問(wèn)題 67
第三部分 數(shù)據(jù)存儲(chǔ)篇
第5章 數(shù)據(jù)序列化與文件存儲(chǔ)格式 70
5.1 數(shù)據(jù)序列化的意義 70
5.2 數(shù)據(jù)序列化方案 72
5.2.1 序列化框架Thrift 72
5.2.2 序列化框架Protobuf 74
5.2.3 序列化框架Avro 76
5.2.4 序列化框架對(duì)比 78
5.3 文件存儲(chǔ)格式剖析 79
5.3.1 行存儲(chǔ)與列存儲(chǔ) 79
5.3.2 行式存儲(chǔ)格式 80
5.3.3 列式存儲(chǔ)格式ORC、Parquet與CarbonData 82
5.4 小結(jié) 88
5.5 本章問(wèn)題 89
第6章 分布式文件系統(tǒng) 90
6.1 背景 90
6.2 文件級(jí)別和塊級(jí)別的分布式文件系統(tǒng) 91
6.2.1 文件級(jí)別的分布式系統(tǒng) 91
6.2.2 塊級(jí)別的分布式系統(tǒng) 92
6.3 HDFS基本架構(gòu) 93
6.4 HDFS關(guān)鍵技術(shù) 94
6.4.1 容錯(cuò)性設(shè)計(jì) 95
6.4.2 副本放置策略 95
6.4.3 異構(gòu)存儲(chǔ)介質(zhì) 96
6.4.4 集中式緩存管理 97
6.5 HDFS訪(fǎng)問(wèn)方式 98
6.5.1 HDFS shell 98
6.5.2 HDFS API 100
6.5.3 數(shù)據(jù)收集組件 101
6.5.4 計(jì)算引擎 102
6.6 小結(jié) 102
6.7 本章問(wèn)題 103
第7章 分布式結(jié)構(gòu)化存儲(chǔ)系統(tǒng) 104
7.1 背景 104
7.2 HBase數(shù)據(jù)模型 105
7.2.1 邏輯數(shù)據(jù)模型 105
7.2.2 物理數(shù)據(jù)存儲(chǔ) 107
7.3 HBase基本架構(gòu) 108
7.3.1 HBase基本架構(gòu) 108
7.3.2 HBase內(nèi)部原理 110
7.4 HBase訪(fǎng)問(wèn)方式 114
7.4.1 HBase shell 114
7.4.2 HBase API 116
7.4.3 數(shù)據(jù)收集組件 118
7.4.4 計(jì)算引擎 119
7.4.5 Apache Phoenix 119
7.5 HBase應(yīng)用案例 120
7.5.1 社交關(guān)系數(shù)據(jù)存儲(chǔ) 120
7.5.2 時(shí)間序列數(shù)據(jù)庫(kù)OpenTSDB 122
7.6 分布式列式存儲(chǔ)系統(tǒng)Kudu 125
7.6.1 Kudu基本特點(diǎn) 125
7.6.2 Kudu數(shù)據(jù)模型與架構(gòu) 126
7.6.3 HBase與Kudu對(duì)比 126
7.7 小結(jié) 127
7.8 本章問(wèn)題 127
第四部分 分布式協(xié)調(diào)與資源管理篇
第8章 分布式協(xié)調(diào)服務(wù)ZooKeeper 130
8.1 分布式協(xié)調(diào)服務(wù)的存在意義 130
8.1.1 leader選舉 130
8.1.2 負(fù)載均衡 131
8.2 ZooKeeper數(shù)據(jù)模型 132
8.3 ZooKeeper基本架構(gòu) 133
8.4 ZooKeeper程序設(shè)計(jì) 134
8.4.1 ZooKeeper API 135
8.4.2 Apache Curator 139
8.5 ZooKeeper應(yīng)用案例 142
8.5.1 leader選舉 142
8.5.2 分布式隊(duì)列 143
8.5.3 負(fù)載均衡 143
8.6 小結(jié) 144
8.7 本章問(wèn)題 145
第9章 資源管理與調(diào)度系統(tǒng)YARN 146
9.1 YARN產(chǎn)生背景 146
9.1.1 MRv1局限性 146
9.1.2 YARN設(shè)計(jì)動(dòng)機(jī) 147
9.2 YARN設(shè)計(jì)思想 148
9.3 YARN的基本架構(gòu)與原理 149
9.3.1 YARN基本架構(gòu) 149
9.3.2 YARN高可用 152
9.3.3 YARN工作流程 153
9.4 YARN資源調(diào)度器 155
9.4.1 層級(jí)隊(duì)列管理機(jī)制 155
9.4.2 多租戶(hù)資源調(diào)度器產(chǎn)生背景 156
9.4.3 Capacity/Fair Scheduler 157
9.4.4 基于節(jié)點(diǎn)標(biāo)簽的調(diào)度 160
9.4.5 資源搶占

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)