注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡計算機科學理論與基礎知識發(fā)現(xiàn)數(shù)據(jù)之美:數(shù)據(jù)分析原理與實踐

發(fā)現(xiàn)數(shù)據(jù)之美:數(shù)據(jù)分析原理與實踐

發(fā)現(xiàn)數(shù)據(jù)之美:數(shù)據(jù)分析原理與實踐

定 價:¥75.00

作 者: 彭鴻濤,聶磊 著
出版社: 電子工業(yè)出版社
叢編項: 大數(shù)據(jù)叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121235580 出版時間: 2014-08-01 包裝: 平裝
開本: 其他 頁數(shù): 332 字數(shù):  

內容簡介

  大數(shù)據(jù)時代已經來臨,這將引起深刻的行業(yè)變革。但是,大數(shù)據(jù)的真意在于數(shù)據(jù)分析,即從繁多的數(shù)據(jù)中找出洞見,并將其應用于實際決策中,以產生更明智的決策。這是一個看起來簡單、做起來較難的事情?!栋l(fā)現(xiàn)數(shù)據(jù)之美:數(shù)據(jù)分析原理與實踐》從一個自底向上的角度,全面地闡述了數(shù)據(jù)分析所涉及的知識和技術,對于經典算法和工具的介紹也不止于泛泛而談,而是加入了作者的經驗和理解。所謂自底向上的角度,即從數(shù)據(jù)分析實踐開始時所需要的數(shù)據(jù)準備、數(shù)據(jù)探查、數(shù)據(jù)再處理等,到經典的統(tǒng)計分析和數(shù)據(jù)挖掘算法及應用,還講述了模型的部署,優(yōu)化技術的引入,最終到決策自動化?!栋l(fā)現(xiàn)數(shù)據(jù)之美:數(shù)據(jù)分析原理與實踐》對企業(yè)管理者、數(shù)據(jù)分析從業(yè)者及高校的學生都有參考意義。管理者能看到一個較全面的數(shù)據(jù)分析的闡述,明確自身的需求;從業(yè)者能看到經驗的總結及經典工具的使用;高校學生能看到數(shù)據(jù)分析所涉及的知識,對數(shù)據(jù)分析有一個全面的認識。

作者簡介

  彭鴻濤,畢業(yè)于西安交通大學軟件學院,自2008年加入IBMSPSS部門以來,一直擔任SPSSAnalyticalDecisionManagement架構師和技術主管。由于工作需要,對數(shù)理統(tǒng)計和數(shù)據(jù)挖掘有長期的使用和研究,對SPSS的產品及解決方案有深入理解,特別擅長于將具體的數(shù)據(jù)分析技術應用到實際的商業(yè)問題解決中。除此之外,對圖像分析也有較深入的實踐和應用。目前,正致力于大數(shù)據(jù)的應用。聶磊,瑞典查爾姆斯理工大學應用信息技術和可靠計算機系統(tǒng)雙碩士,PMP。2008年加入IBMSPSS部門,現(xiàn)為IBMAnalyticalDecisionManagement團隊主管及資深開發(fā)人員,從事數(shù)據(jù)挖掘和企業(yè)級業(yè)務分析與優(yōu)化解決方案等產品的研發(fā)、部署實施和集成架構咨詢工作,對數(shù)據(jù)挖掘和決策支持有深刻的認識和理解,對SPSS的產品及解決方案有深入的研究。目前專注于大數(shù)據(jù)和云計算等技術的研究。

圖書目錄

目 錄
第1章業(yè)務分析是一個蓬勃發(fā)展的方向 1
1.1 業(yè)務分析是什么 2
1.2 業(yè)務分析的應用現(xiàn)狀 3
1.3 如何應用業(yè)務分析 5
1.4 大數(shù)據(jù)與業(yè)務分析 8
1.5 我們還在等什么 9
第2章開始我們的旅程――從數(shù)據(jù)談起 10
2.1 我們討論的數(shù)據(jù)結構 11
2.1.1 行(Row)是什么 12
2.1.2 列(Column)是什么 13
2.1.3 多少行數(shù)據(jù)才合適 15
2.1.4 我們需要什么樣的列 16
2.2 Statistics和Modeler的基本知識 18
2.3 數(shù)據(jù)導入(Loading Data) 24
2.4 數(shù)據(jù)探查(Data Exploring) 27
2.4.1 正態(tài)分布(Normal Distribution) 28
2.4.2 數(shù)據(jù)探查的常見統(tǒng)計量 30
2.4.3 數(shù)據(jù)可視化 35
2.5 本章小結 47
第3章在分析之前,還需要數(shù)據(jù)預處理 48
3.1 數(shù)據(jù)的問題 49
3.2 數(shù)據(jù)校驗 50
3.2.1 驗證規(guī)則 50
3.2.2 驗證數(shù)據(jù) 53
3.2.3 數(shù)據(jù)審計(Data Audit) 57
3.2.4 識別異常數(shù)據(jù) 60
3.3 數(shù)據(jù)集成(Data Integration) 65
3.3.1 在Statistics中進行數(shù)據(jù)集成 66
3.3.2 在Modeler中進行數(shù)據(jù)集成 68
3.4 數(shù)據(jù)轉換(Data Transformation) 73
3.4.1 分箱(Binning) 73
3.4.2 數(shù)據(jù)調整(Data Rescale) 78
3.4.3 數(shù)據(jù)重新編碼(Recode) 79
3.5 自動數(shù)據(jù)準備 83
3.5.1 Statistics中的自動數(shù)據(jù)準備 83
3.5.2 Modeler中的自動數(shù)據(jù)準備 88
3.6 本章小結 89
第4章經典分析――統(tǒng)計學的魅力 91
4.1 隨機變量及分布 92
4.2 數(shù)理統(tǒng)計導引 94
4.3 參數(shù)估計 96
4.3.1 點估計 96
4.3.2 區(qū)間估計 97
4.4 假設檢驗 98
4.4.1 正態(tài)分布檢驗和t檢驗 101
4.4.2 非參數(shù)檢驗 108
4.5 相關分析 111
4.6 方差分析 113
4.7 回歸分析 114
4.7.1 線性回歸分析 114
4.7.2 自動化線性回歸分析 120
4.7.3 廣義線性模型 122
4.7.4 廣義線性混合模型(Generalized Linear Mixed Mode,GLMM) 128
4.8 本章小結 135
第5章我想預測未來 136
5.1 數(shù)據(jù)挖掘的技術分類 136
5.1.1 有監(jiān)督的建模技術 137
5.1.2 無監(jiān)督的建模技術 138
5.1.3 Feature Selection對于分類的意義 139
5.1.4 查看建模的結果 139
5.2 決策樹 140
5.2.1 C5.0算法 141
5.2.2 分類和回歸樹 145
5.2.3 卡方自動交互檢測法(CHAID) 147
5.2.4 快速、無偏、高效的統(tǒng)計樹(QUEST) 148
5.2.5 交互式的決策樹構建方式 149
5.3 決策表 150
5.3.1 決策表算法的設置 151
5.3.2 交互式決策表的生成方式 153
5.4 貝葉斯網絡 154
5.4.1 一些基本概念 154
5.4.2 IBM SPSS的做法 156
5.5 神經網絡(Neural Networks) 158
5.5.1 神經網絡是什么 158
5.5.2 SPSS神經網絡算法 160
5.6 支持向量機(Support Vector Machine) 162
5.6.1 什么是線性分類器 162
5.6.2 Modeler中的支持向量機 163
5.7 最近相鄰(Nearest Neighbor) 165
5.8 我該選用哪種算法 167
5.9 如何評價預測結果 170
5.9.1 基本指標 170
5.9.2 Gains 171
5.9.3 Lift 173
5.9.4 Response 175
5.9.5 Profit 175
5.9.6 ROI 177
5.10 本章小結 177
第6章我想發(fā)現(xiàn)聚類(Cluster) 179
6.1 聚類技術 180
6.2 分層聚類 181
6.3 K-means 184
6.4 TwoStep 188
6.4.1 預聚類 189
6.4.2 離群值處理 189
6.4.3 聚類 189
6.4.4 TwoStep的使用 190
6.5 Kohonen network 192
6.6 我怎么知道聚類結果是好的 194
6.6.1 考察聚類的數(shù)量和每個聚類中的記錄數(shù) 194
6.6.2 考察聚類內的特征 195
6.6.3 考察聚類間的特征 195
6.6.4 一個綜合的考察指標Silhouette 196
6.7 自動聚類 197
6.8 理解聚類的結果 198
6.9 一個聚類分析應用的例子 201
6.10 本章小結 202
第7章周而復始的規(guī)律――時間序列分析 203
7.1 時間序列 204
7.1.1 時間序列的類型 204
7.1.2 時間序列的特征 205
7.2 指數(shù)平滑模型 206
7.2.1 簡單指數(shù)平滑法 206
7.2.2 帶有趨勢調整的指數(shù)平滑法(霍爾特指數(shù)平滑法) 208
7.2.3 帶有阻尼趨勢的指數(shù)平滑法 208
7.2.4 簡單季節(jié)指數(shù)平滑法 209
7.2.5 帶有趨勢和季節(jié)調整的指數(shù)平滑法(溫特斯指數(shù)平滑法) 209
7.2.6 指數(shù)平滑法的初始化 210
7.2.7 去除時間序列的趨勢和季節(jié)性因素 211
7.3 自回歸模型 212
7.3.1 自回歸模型 212
7.3.2 移動平均模型 213
7.3.3 自回歸移動平均模型(ARMA) 213
7.3.4 差分自回歸移動平均模型 214
7.4 SPSS產品中的時間序列模型 214
7.4.1 Statistics中的時間序列模型 214
7.4.2 Modeler中的時間序列模型 235
7.5 時間序列分析的評價 238
7.6 本章小結 239
第8章你的行為完全可能被猜中――關聯(lián)規(guī)則分析 240
8.1 基本概念 241
8.2 Apriori算法 245
8.2.1 Apriori算法工作步驟 245
8.2.2 Apriori算法的評估方法 246
8.2.3 Apriori節(jié)點 247
8.3 CARMA算法 249
8.3.1 CARMA算法的工作步驟 249
8.3.2 CARMA節(jié)點 251
8.4 序列算法 252
8.5 關聯(lián)規(guī)則的評價 255
8.6 典型應用案例 256
第9章我們還需要優(yōu)化技術的幫忙 257
9.1 什么是優(yōu)化技術 258
9.2 優(yōu)化問題的分類 259
9.2.1 線性規(guī)劃 260
9.2.2 整數(shù)規(guī)劃 261
9.2.3 多目標規(guī)劃 262
9.2.4 動態(tài)規(guī)劃 262
9.3 IBM ILOG Optimization介紹 263
9.4 本章小結 265
第10章有關方法論的問題 266
10.1 為什么我們要討論方法論 267
10.2 CRISP-DM 267
10.2.1 CRISP-DM方法學 268
10.2.2 CRISP-DM參考模型 270
10.3 IBM SPSS CaDS 273
10.3.1 Repository 273
10.3.2 Job 274
10.3.3 Model Refresh and Champion Challenger 274
10.3.4 Scoring 274
10.4 模型的部署不是終點 275
第11章一個時髦的領域――決策管理 276
11.1 決策管理系統(tǒng) 276
11.1.1 什么是決策 277
11.1.2 什么是決策管理系統(tǒng) 279
11.1.3 決策支持與決策管理的比較 281
11.2 構建決策管理系統(tǒng) 282
11.2.1 構建決策支持系統(tǒng)的原則 282
11.2.2 合適的決策 283
11.2.3 如何找到合適的決策 285
11.2.4 怎樣在決策管理系統(tǒng)中定義決策 287
11.2.5 決策管理系統(tǒng)中的優(yōu)化技術 292
11.2.6 決策影響的評估 294
11.2.7 監(jiān)控決策 297
11.2.8 決策的持續(xù)改進 298
11.2.9 構建和部署決策服務 299
11.2.10 實施決策管理的一些要求 300
11.3 IBM ADM 301
11.3.1 ADM是SPSS數(shù)據(jù)分析能力的窗口 301
11.3.2 ADM的著眼點是將數(shù)據(jù)分析結果轉化為決策 302
11.3.3 ADM是一個可以配置的決策服務平臺 303
11.3.4 ADM的工作步驟 306
11.4 本章小結 308
后記為未來做好準備 309

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號