注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫Hadoop大數(shù)據(jù)處理

Hadoop大數(shù)據(jù)處理

Hadoop大數(shù)據(jù)處理

定 價:¥59.00

作 者: 劉軍 著
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機與互聯(lián)網(wǎng) 數(shù)據(jù)庫

ISBN: 9787115323248 出版時間: 2013-09-01 包裝: 平裝
開本: 16開 頁數(shù): 289 字數(shù):  

內(nèi)容簡介

  《Hadoop大數(shù)據(jù)處理》以大數(shù)據(jù)處理系統(tǒng)的三大關(guān)鍵要素——“存儲”、“計算”與“容錯”為起點,深入淺出地介紹了如何使用Hadoop這一高性能分布式技術(shù)完成大數(shù)據(jù)處理任務。本書不僅包含了使用Hadoop進行大數(shù)據(jù)處理的實踐性知識和示例,還以圖文并茂的形式系統(tǒng)性地揭示了Hadoop技術(shù)族中關(guān)鍵組件的運行原理和優(yōu)化手段,為讀者進一步提升Hadoop使用技巧和運行效率提供了頗具價值的參考。《Hadoop大數(shù)據(jù)處理》共10章,涉及的主題包括大數(shù)據(jù)處理概論、基于Hadoop的大數(shù)據(jù)處理框架、MapReduce計算模式、使用HDFS存儲大數(shù)據(jù)、HBase大數(shù)據(jù)庫、大數(shù)據(jù)的分析處理、Hadoop環(huán)境下的數(shù)據(jù)整合、Hadoop集群的管理與維護、基于MapReduce的數(shù)據(jù)挖掘?qū)嵺`及面向未來的大數(shù)據(jù)處理技術(shù)。最后附有一個在Windows環(huán)境下搭建Hadoop開發(fā)及調(diào)試環(huán)境的參考手冊?!禜adoop大數(shù)據(jù)處理》適合需要使用Hadoop處理大數(shù)據(jù)的程序員、架構(gòu)師和產(chǎn)品經(jīng)理作為技術(shù)參考和培訓資料,也可作為高校研究生和本科生教材。

作者簡介

  劉軍,1994年至2003年,就讀于北京郵電大學信息工程學院,獲得博士學位。2003年至2007年,IBM中國研究院擔任高級研究員及部門經(jīng)理,研究方向為電信開放業(yè)務平臺及IP融合網(wǎng)絡管理。2007年至2012年,創(chuàng)辦歡城(北京)科技有限公司,為中國網(wǎng)頁游戲產(chǎn)業(yè)開創(chuàng)者之一,研發(fā)的產(chǎn)品曾多次獲得互聯(lián)網(wǎng)業(yè)界獎項。2012年至今,北郵任教,在寬帶網(wǎng)絡監(jiān)控教研中心從事電信網(wǎng)絡數(shù)據(jù)分析相關(guān)教學與研究工作。

圖書目錄

第1章 大數(shù)據(jù)處理概論
1.1 什么是大數(shù)據(jù)
1.2 數(shù)據(jù)處理平臺的基礎架構(gòu)
1.3 大數(shù)據(jù)處理的存儲
1.3.1 提升容量
1.3.2 提升吞吐量
1.4 大數(shù)據(jù)處理的計算模式
1.4.1 多處理技術(shù)
1.4.2 并行計算
1.5 大數(shù)據(jù)處理系統(tǒng)的容錯性
1.5.1 數(shù)據(jù)存儲容錯
1.5.2 計算任務容錯
1.6 大數(shù)據(jù)處理的云計算變革
本章參考文獻
第2章 基于Hadoop的大數(shù)據(jù)處理架構(gòu)
2.1 Google核心云計算技術(shù)
2.1.1 并行計算編程模型MapReduce
2.1.2 分布式文件系統(tǒng)GFS
2.1.3 分布式結(jié)構(gòu)化數(shù)據(jù)存儲BigTable
2.2 Hadoop云計算技術(shù)及發(fā)展
2.2.1 Hadoop的由來
2.2.2 Hadoop原理與運行機制
2.2.3 Hadoop相關(guān)技術(shù)及簡介
2.2.4 Hadoop技術(shù)的發(fā)展與演進
2.3 基于云計算的大數(shù)據(jù)處理架構(gòu)
2.4 基于云計算的大數(shù)據(jù)處理技術(shù)的應用
2.4.1 百度
2.4.2 阿里巴巴
2.4.3 騰訊
2.4.4 華為
2.4.5 中國移動
2.5 Hadoop運行實踐
本章參考文獻
第3章 MapReduce計算模式
3.1 MapReduce原理
3.2 MapReduce工作機制
3.2.1 MapReduce運行框架的組件
3.2.2 MapReduce作業(yè)的運行流程
3.2.3 作業(yè)調(diào)度
3.2.4 異常處理
3.3 MapReduce應用開發(fā)
3.3.1 MapReduce應用開發(fā)流程
3.3.2 通過Web界面分析MapReduce應用
3.3.3 MapReduce任務執(zhí)行的單步跟蹤
3.3.4 多個MapReduce過程的組合模式
3.3.5 使用其他語言編寫MapReduce程序
3.3.6 不同數(shù)據(jù)源的數(shù)據(jù)聯(lián)結(jié)(Join)
3.4 MapReduce設計模式
3.4.1 計數(shù)(Counting)
3.4.2 分類(Classfication)
3.4.3 過濾處理(Filtering)
3.4.4 排序(Sorting)
3.4.5 去重計數(shù)(Distinct Counting)
3.4.6 相關(guān)計數(shù)(Cross-Correlation)
3.5 MapReduce算法實踐
3.5.1 最短路徑算法
3.5.2 反向索引算法
3.5.3 PageRank算法
3.6 MapReduce性能調(diào)優(yōu)
3.6.1 MapReduce參數(shù)配置優(yōu)化
3.6.2 使用Cominber減少數(shù)據(jù)傳輸
3.6.3 啟用數(shù)據(jù)壓縮
3.6.4 使用預測執(zhí)行功能
3.6.5 重用JVM
本章參考文獻
第4章 使用HDFS存儲大數(shù)據(jù)
4.1 大數(shù)據(jù)的云存儲需求
4.2 HDFS架構(gòu)與流程
4.2.1 系統(tǒng)框架
4.2.2 數(shù)據(jù)讀取過程
4.2.3 數(shù)據(jù)寫入過程
4.3 文件訪問與控制
4.3.1 基于命令行的文件管理
4.3.2 通過API操作文件
4.4 HDFS性能優(yōu)化
4.4.1 調(diào)整數(shù)據(jù)塊尺寸
4.4.2 規(guī)劃網(wǎng)絡與節(jié)點
4.4.3 調(diào)整服務隊列數(shù)量
4.4.4 預留磁盤空間
4.4.5 存儲平衡
4.4.6 根據(jù)節(jié)點功能優(yōu)化磁盤配置
4.4.7 其他參數(shù)
4.5 HDFS的小文件存儲問題
4.5.1 Hadoop Archive工具
4.5.2 CombineFileInputFormat
4.5.3 SequenceFile格式
4.5.4 相關(guān)研究
4.6 HDFS的高可用性問題
4.6.1 基于配置的元數(shù)據(jù)備份
4.6.2 基于DRBD的元數(shù)據(jù)備份
4.6.3 Secondary NameNode/CheckpointNode
4.6.4 Backup Node
4.6.5 NameNode熱備份
4.6.6 HDFS的HA方案總結(jié)
本章參考文獻
第5章 HBase大數(shù)據(jù)庫
5.1 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫
5.2 HBase架構(gòu)與原理
5.2.1 系統(tǒng)架構(gòu)及組件
5.2.2 數(shù)據(jù)模型與物理存儲
5.2.3 RegionServer的查找
5.2.4 物理部署與讀寫流程
5.3 管理HBase中的數(shù)據(jù)
5.3.1 Shell
5.3.2 Java API
5.3.3 非Java語言訪問
5.4 從RDBMS到HBase
5.4.1 行到列與主鍵到行關(guān)鍵字
5.4.2 聯(lián)合查詢(Join)與去范例化(Denormalization)
5.5 在HBase上運行MapReduce
5.6 HBase性能優(yōu)化
5.6.1 參數(shù)配置優(yōu)化
5.6.2 表設計優(yōu)化
5.6.3 更新數(shù)據(jù)操作優(yōu)化
5.6.4 讀數(shù)據(jù)操作優(yōu)化
5.6.5 數(shù)據(jù)壓縮
5.6.6 JVM GC優(yōu)化
5.6.7 負載均衡
5.6.8 性能測試工具
本章參考文獻
第6章 大數(shù)據(jù)的分析處理
6.1 大數(shù)據(jù)的分析處理概述
6.2 Hive
6.2.1 系統(tǒng)架構(gòu)及組件
6.2.2 Hive數(shù)據(jù)結(jié)構(gòu)
6.2.3 數(shù)據(jù)存儲格式
6.2.4 Hive支持的數(shù)據(jù)類型
6.2.5 使用HiveQL訪問數(shù)據(jù)
6.2.6 自定義函數(shù)擴展功能
6.3 Pig
6.3.1 Pig架構(gòu)
6.3.2 Pig Latin語言
6.3.3 使用Pig處理數(shù)據(jù)
6.4 Hive與Pig的對比
本章參考文獻
第7章 Hadoop環(huán)境下的數(shù)據(jù)整合
7.1 Hadoop計算環(huán)境下的數(shù)據(jù)整合問題
7.2 數(shù)據(jù)庫整合工具Sqoop
7.2.1 使用Sqoop導入數(shù)據(jù)
7.2.2 使用Sqoop導出數(shù)據(jù)
7.2.3 Sqoop與Hive結(jié)合
7.2.4 Sqoop對大對象數(shù)據(jù)的處理
7.3 Hadoop平臺內(nèi)部數(shù)據(jù)整合工具HCatalog
7.3.1 HCatalog的需求與實現(xiàn)
7.3.2 MapReduce使用HCatalog管理數(shù)據(jù)
7.3.3 Pig使用HCatalog管理數(shù)據(jù)
7.3.4 HCatalog的命令行與通知功能
本章參考文獻
第8章 Hadoop集群的管理與維護
8.1 云計算平臺的管理體系
8.2 ZooKeeper——集群中的配置管理與協(xié)調(diào)者
8.2.1 集群環(huán)境下的配置管理
8.2.2 ZooKeeper架構(gòu)
8.2.3 ZooKeeper的數(shù)據(jù)模型
8.3 Hadoop集群監(jiān)控的基礎組件
8.3.1 Nagios
8.3.2 Ganglia
8.3.3 JMX
8.4 Ambari——Hadoop集群部署與監(jiān)控集成工具
8.5 基于Cacti的Hadoop集群服務器監(jiān)控
8.6 Chukwa——集群日志收集及分析
8.7 基于Kerberos的Hadoop安全管理
8.8 Hadoop集群管理工具分析
本章參考文獻
第9章 基于MapReduce的數(shù)據(jù)挖掘
9.1 數(shù)據(jù)挖掘及其分布式并行化
9.2 基于MapReduce的數(shù)據(jù)挖掘與Mahout
9.3 經(jīng)典數(shù)據(jù)挖掘算法的MapReduce實例
9.3.1 矩陣乘法
9.3.2 相似度計算
9.4 基于云計算的數(shù)據(jù)挖掘?qū)嵺`及面臨的挑戰(zhàn)
本章參考文獻
第10章 面向未來的大數(shù)據(jù)處理
10.1 下一代計算框架YARN
10.2 大數(shù)據(jù)的實時交互式分析
10.2.1 Google Dremel
10.2.2 Cloudera Impala
10.3 大數(shù)據(jù)的圖計算
10.3.1 BSP模型
10.3.2 Google Pregel計算框架
10.3.3 Apache Hama開源項目
本章參考文獻
附錄 基于Cygwin的Hadoop環(huán)境搭建
附錄A 安裝和配置Cygwin
附錄B 安裝和配置Hadoop
附錄C 運行示例程序驗證Hadoop安裝
附錄D 安裝和配置Eclipse下的Hadoop開發(fā)環(huán)境

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號