本書主要分析Hadoop 3.2.0的新特性和新功能,共5章。首先簡單介紹Hadoop,讓剛接觸Hadoop的讀者對它有個基本了解; 接著介紹目前使用比較多的分布式文件系統(tǒng)HDFS,內容涉及NameNode 的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然后從應用管理和資源調度這兩個方面介紹一個通用的資源管理平臺YARN;再后討論如何在YARN平臺中運行應用,比如如何將應用遷移到YARN平臺,以及非Hadoop的應用是如何兼容YARN模式的。最后,書中給出了一些工作實戰(zhàn)指南,包括如何搭建一個生產可用的Hadoop 3.0集群;如何將現(xiàn)有Hadoop 2.0集群升級到Hadoop 3.0,及其在升級過程中遇到的問題;如何針對Hadoop進行二次開發(fā),并參與社區(qū),向社區(qū)貢獻代碼;一個大數(shù)據(jù)平臺應具備哪些必備組件等。