注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡計算機科學理論與基礎知識重構大數據統計

重構大數據統計

重構大數據統計

定 價:¥79.00

作 者: 楊旭 著
出版社: 電子工業(yè)出版社
叢編項: 大數據叢書 阿里巴巴集團技術叢書
標 簽: 計算機理論、基礎知識 計算機與互聯網

購買這本書可以去


ISBN: 9787121225000 出版時間: 2014-08-01 包裝: 平裝
開本: 16開 頁數: 404 字數:  

內容簡介

  基于《重構大數據統計》內容開發(fā)的數據分析工具已經在阿里巴巴集團內部的多個部門使用,取得顯著效果。大數據的統計計算是進行數據探索和分析挖掘的基礎,在實際應用中會遇到兩個問題:一個是需要使用多少資源;另一個是計算時間,它關系到數據探索分析的效率和效果。人們都希望花更少的錢,并且計算時間更短,但對于某個確定的計算過程,它們是成反比的。《重構大數據統計》就是從統計計算的算法入手,重構其計算過程,從而同時降低資源使用量和計算時間?!吨貥嫶髷祿y計》提出了一套完整的關于大數據統計的計算理論,包括常用的各種統計量和統計方法。《重構大數據統計》還提供大量的示例程序代碼幫助讀者進一步了解算法細節(jié),便于將書中的方法運用于實際計算。

作者簡介

  楊旭,2004年獲南開大學數學博士學位,之后在南開大學信息學院從事博士后研究工作。2006年加入微軟亞洲研究院,進行符號計算、大規(guī)模矩陣計算及機器學習算法研究;2010年加入阿里巴巴,從事大數據相關的統計和機器學習算法研發(fā)。

圖書目錄

第1章基本概念 1
1.1 數據類型 1
1.2 總體和樣本 2
1.3 參數和統計量 2
1.4 分布式計算 3
第2章單變量基本統計量 5
2.1 數量統計量 5
2.1.1 樣本方差為何除以n-1 7
2.1.2 數據分布與標準差的關系 10
2.1.3 新的計算公式 11
2.1.4 代碼實現 16
2.2 頻數統計量 18
2.3 次序統計量 23
2.3.1 通過排序方法計算次序統計量 25
2.3.2 不需排序就可計算的次序統計量 29
2.3.3 基于頻數信息計算次序統計量 31
2.3.4 中位數、眾數和均值的關系 34
第3章單變量數據的分布 36
3.1 直方圖 36
3.1.1 直方圖的計算 39
3.1.2 算法實現 42
3.1.3 已知數據頻數的情況下求直方圖 49
3.1.4 日期類型直方圖 49
3.2 經驗分布 57
3.3 近似分位數和近似百分位數 61
3.4 PP、QQ概率圖 65
3.5 單變量的基本統計信息 69
第4章多變量的數據特征 77
4.1 協方差 77
4.2 相關系數 79
4.3 協方差和相關系數的計算實現 80
4.4 數據表的基本統計結果 84
第5章數據探索 88
5.1 擴展直方圖 88
5.1.1 計算方法 90
5.1.2 代碼實現 91
5.2 交叉表 110
第6章極限定理 116
6.1 大數定理 116
6.2 中心極限定理 117
第7章常用的分布函數介紹 123
7.1 基本定義 123
7.2 標準正態(tài)分布(Z分布或U分布) 124
7.3 卡方分布(χ^2分布) 129
7.4 學生T分布 133
7.5 F分布 139
第8章常用分布函數計算 145
8.1 函數定義 145
8.2 函數性質及相互間的關系 147
8.3 分布函數關系圖 164
8.4 分布函數的計算 166
8.4.1 計算Γ(x) 166
8.4.2 計算CDF_Γ 170
8.4.3 計算CDF_Β 173
8.4.4 計算IDF_Γ和CDF_Β 176
8.4.5 其他函數的計算 178
8.5 生成常用分布的隨機數 180
第9章參數估計 187
9.1 點估計與區(qū)間估計 187
9.2 單個總體的參數估計 190
9.2.1 不同情況的參數估計表達式 190
9.2.2 單個總體參數估計的實現 191
9.3 兩個總體的參數估計 196
9.3.1 不同情況的參數估計表達式 196
9.3.2 兩個總體參數估計的實現 199
第10章假設檢驗 207
10.1 基本概念 207
10.2 參數檢驗 209
10.3 單個總體參數的檢驗 212
10.3.1 各種情況下的檢驗方法 212
10.3.2 單個總體參數檢驗方法的實現 214
10.3.3 不同檢驗方法的選擇 223
10.4 兩個總體參數的檢驗 227
10.4.1 各種情況下的檢驗方法 227
10.4.2 兩個總體參數檢驗方法的實現 231
10.4.3 不同檢驗方法的選擇 237
第11章非參數檢驗 244
11.1 Pearson擬合優(yōu)度χ^2檢驗 245
11.2 兩個變量的列聯表檢驗 248
11.3 K-S檢驗 250
11.3.1 單樣本K-S檢驗 251
11.3.2 雙樣本K-S檢驗 256
11.4 符號檢驗 258
11.5 秩統計量和秩檢驗方法 260
11.5.1 Wilcoxon秩和檢驗 260
11.5.2 Wilcoxon符號秩和檢驗 266
11.5.3 Kruskal-Wallis檢驗 268
11.5.4 Friedman檢驗 273
第12章方差分析 277
12.1 單因素方差分析 278
12.1.1 計算流程 278
12.1.2 代碼實現 280
12.1.3 方差分析與T檢驗的關系 283
12.1.4 方差分析中的多重比較方法 285
12.2 雙因素方差分析 289
12.2.1 無交互作用的雙因素方差分析 289
12.2.2 有交互作用的雙因素方差分析 295
第13章多元線性回歸 302
13.1 數學模型 302
13.2 顯著性檢驗 308
13.3 計算步驟 309
13.4 代碼實現 313
13.5 多重共線性 320
13.5.1 度量指標 320
13.5.2 代碼實現 323
13.5.3 應用示例 328
13.6 逐步回歸 330
第14章主成分分析 340
14.1 計算步驟 342
14.2 代碼實現 345
14.3 應用舉例 350
第15章判別分析 359
15.1 距離判別 359
15.1.1 Mahalanobis距離 360
15.1.2 模型訓練和預測 361
15.2 Fisher判別 364
15.3 Bayes判別 369
15.3.1 樸素Bayes判別 369
15.3.2 模型訓練和預測 370
15.4 判別算法的綜合模型 377
15.5 應用舉例 378
第16章模型評估曲線 383
16.1 相關概念 383
16.2 定義 384
16.2.1 ROC曲線 384
16.2.2 上升圖和反饋率―精確率線 386
16.3 計算實現 386
參考文獻 391

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號