目 錄第1章 大數據的概念和發(fā)展背景 11.1 大數據的發(fā)展背景 11.2 大數據的概念和特征 41.2.1 大數據的概念 41.2.2 大數據的特征 41.3 大數據的產生 51.3.1 數據產生由企業(yè)內部向企業(yè)外部擴展 51.3.2 數據產生從Web 1.0向Web 2.0、從互聯(lián)網向移動互聯(lián)網擴展 61.3.3 數據產生從計算機/互聯(lián)網(IT)向物聯(lián)網(IOT)擴展 71.4 數據的量級 71.4.1 數據大小的量級 71.4.2 大數據的量級 81.5 大量不同的數據類型 81.5.1 按照數據結構分類 91.5.2 按照產生主體分類 121.5.3 按照數據作用方式分類 131.6 大數據的速度 141.7 大數據的應用價值 141.8 大數據的挑戰(zhàn) 151.8.1 業(yè)務視角不同帶來的挑戰(zhàn) 151.8.2 技術架構不同帶來的挑戰(zhàn) 151.8.3 管理策略不同帶來的挑戰(zhàn) 16第2章 大數據應用的業(yè)務需求 172.1 大數據應用的業(yè)務流程 172.1.1 產生數據 182.1.2 聚集數據 182.1.3 分析數據 192.1.4 利用數據 192.2 大數據應用的業(yè)務價值 192.2.1 發(fā)現(xiàn)大數據的潛在價值 202.2.2 發(fā)現(xiàn)動態(tài)行為數據的價值 202.2.3 實現(xiàn)大數據整合創(chuàng)新的價值 202.3 各行業(yè)大數據應用的個性需求 212.3.1 互聯(lián)網與電子商務行業(yè) 212.3.2 零售業(yè) 262.3.3 金融業(yè) 282.3.4 政府 312.3.5 醫(yī)療業(yè) 342.3.6 能源業(yè) 352.3.7 制造業(yè) 372.3.8 電信運營業(yè) 382.3.9 交通業(yè) 402.4 企業(yè)級大數據應用的共性需求 422.4.1 客戶分析 422.4.2 績效分析 462.4.3 欺詐和風險評估 472.5 以銀行客戶分析為例,分析一個大數據的應用場景 48第3章 大數據應用的總體架構和關鍵技術 513.1 總體架構 513.1.1 業(yè)務目標 513.1.2 架構設計原則 523.1.3 總體架構參考模型 553.1.4 總體架構的特點 583.2 大數據存儲和處理技術 593.2.1 Hadoop:分布式存儲和計算平臺 593.2.2 HDFS:分布式文件系統(tǒng) 653.2.3 MapReduce:分布式計算框架 723.2.4 NoSQL:分布式數據庫 983.2.5 MPP:大規(guī)模并行處理系統(tǒng) 1133.2.6 Spark:輕量級的分布式內存計算系統(tǒng) 1173.2.7 S4和Storm:流計算框架 1263.2.8 大數據存儲和處理技術的比較分析 1323.3 大數據查詢和分析技術 1333.3.1 Hive:基本的Hadoop查詢和分析 1343.3.2 Hive 2.0:Hive的優(yōu)化和升級 1443.3.3 實時互動的SQL:Impala和drill 1473.3.4 基于PostgreSQL的SQL on Hadoop 1533.4 大數據高級分析和可視化技術 1543.4.1 傳統(tǒng)數據倉庫與聯(lián)機分析處理技術 1543.4.2 大數據對傳統(tǒng)分析的挑戰(zhàn) 1573.4.3 大數據挖掘與高級分析 1573.4.4 大數據挖掘與高級分析庫 1623.4.5 非結構化復雜數據分析 1633.4.6 實時預測分析 1703.4.7 開源可視化工具:R語言 1773.4.8 可視化技術 1853.5 以銀行客戶分析為例的大數據應用體系架構 194第4章 大數據與企業(yè)級應用的整合策略 1964.1 大數據傳輸、接入、整合和流程管理平臺 1974.1.1 數據傳輸 1974.1.2 數據接入 2034.1.3 數據整合 2074.1.4 流程管理 2084.2 大數據與存儲架構的整合 2124.2.1 傳統(tǒng)存儲架構比較 2124.2.2 大數據平臺的存儲架構的選擇 2144.2.3 集群存儲的發(fā)展 2144.2.4 基于HDFS的集群存儲 2164.2.5 固態(tài)硬盤(SSD)對內存計算的支持 2184.2.6 軟件定義存儲(SDS) 2184.2.7 超融合架構(HCI) 2204.3 大數據與網絡架構的發(fā)展 2204.3.1 統(tǒng)一的以太網結構 2224.3.2 軟件定義網絡(SDN) 2234.3.3 網絡功能虛擬化(NFV) 2264.4 大數據與虛擬化技術的整合 2284.5 大數據與Docker技術 2304.5.1 Docker概述 2304.5.2 Docker原理與總體架構 2314.5.3 Docker與應用程序開發(fā)與管理 2374.6 大數據與云計算 2404.7 大數據安全 2424.8 以銀行客戶分析為例,分析一個大數據的平臺整合 244第5章 大數據應用的實踐方法與案例 2465.1 實踐方法論 2465.1.1 業(yè)務需求定義 2475.1.2 數據應用現(xiàn)狀分析與標桿比較 2485.1.3 大數據應用架構規(guī)劃和設計 2495.1.4 大數據技術切入與實施 2505.1.5 大數據試用和評估 2515.1.6 大數據應用推廣 2525.2 技術應用案例 2525.2.1 Amazon和Google 2525.2.2 Yahoo 2555.2.3 Amazon 2575.2.4 Facebook 2595.2.5 Twitter 2635.2.6 淘寶網 2645.3 以銀行客戶分析為例的實施案例分析 2665.3.1 銀行基于大數據的客戶分析的業(yè)務需求 2665.3.2 銀行基于大數據的客戶分析的現(xiàn)狀與標桿比較 2675.3.3 銀行基于大數據的客戶分析的應用架構規(guī)劃與設計 2695.3.4 銀行基于大數據的數據分析的實施、試點和推廣 269第6章 大數據應用的主流解決方案 2706.1 產業(yè)鏈 2706.1.1 國際大數據產業(yè)生態(tài) 2706.1.2 國內大數據產業(yè)生態(tài) 2736.2 主流廠商解決方案 2746.2.1 Cloundera 2756.2.2 Hortonworks 2766.2.3 MapR 2776.2.4 IBM 2786.2.5 Oracle 2806.2.6 EMC 2816.2.7 Intel 2826.2.8 SAP 2836.2.9 Teradata 285第7章 大數據應用的未來挑戰(zhàn)和趨勢 2867.1 隱私保護 2867.1.1 法律保護 2877.1.2 技術保護 2897.1.3 理念革新 2907.2 技術標準 2917.2.1 ISO大數據標準化進展 2917.2.2 大數據基準和基準測試 2937.2.3 大數據處理分析標準套件 2967.3 大數據治理 2967.3.1 數據治理框架 2977.3.2 數據質量管理 2987.3.3 大數據的組織、角色和責任 2997.4 適應商業(yè)社會的未來趨勢 3007.4.1 從產品推銷向數據營銷的轉變 3007.4.2 從流程驅動到分析驅動的轉變 3007.4.3 從私有資源到公共服務的轉變 301