注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)敏捷數(shù)據(jù)科學(xué):用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

敏捷數(shù)據(jù)科學(xué):用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

敏捷數(shù)據(jù)科學(xué):用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

定 價(jià):¥49.00

作 者: (美)Russell Jurney 著; 馮文中,朱洪波 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121236198 出版時(shí)間: 2014-07-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 184 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《敏捷數(shù)據(jù)科學(xué):用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用》面向大數(shù)據(jù)挖掘,以敏捷視角呈現(xiàn)高效構(gòu)建數(shù)據(jù)模型的全程實(shí)踐和思路。在一組以一個(gè)真實(shí)電子郵箱數(shù)據(jù)挖掘?yàn)槔臄?shù)據(jù)- 價(jià)值金字塔進(jìn)階模式中,你將學(xué)到:一整套實(shí)用工具及其方法論,可快速實(shí)現(xiàn)在Hadoop 上構(gòu)建數(shù)據(jù)分析應(yīng)用;用Python、Apache Pig D3.js等輕量級(jí)工具創(chuàng)建用于探索數(shù)據(jù)的敏捷環(huán)境;一種可根據(jù)數(shù)據(jù)中信息快速切換,進(jìn)行不同類(lèi)型數(shù)據(jù)分析的迭代式開(kāi)發(fā)方法。

作者簡(jiǎn)介

  Russell Jurney,在美國(guó)和墨西哥的賭場(chǎng)開(kāi)始他的數(shù)據(jù)分析生涯。他開(kāi)發(fā)了一個(gè)web應(yīng)用來(lái)分析老虎機(jī)的性能。在經(jīng)歷了創(chuàng)業(yè)、交互式媒體和新聞業(yè)以后,他到了硅谷,在Ning和LinkedIn開(kāi)始構(gòu)建可擴(kuò)展的數(shù)據(jù)分析應(yīng)用。他現(xiàn)在和妻子Kate以及兩只愛(ài)犬住在加利福尼亞州帕西菲卡市的海邊。

圖書(shū)目錄

前言xi
第1部分起步
第1章理論
敏捷大數(shù)據(jù)
BigWords定義
敏捷大數(shù)據(jù)團(tuán)隊(duì)
認(rèn)識(shí)機(jī)遇和問(wèn)題
敏捷大數(shù)據(jù)流程
代碼檢查和結(jié)對(duì)編程
敏捷的場(chǎng)所:開(kāi)發(fā)的效率
協(xié)作空間
私人空間
個(gè)人空間
用大幅打印件明確表達(dá)想法
第2章數(shù)據(jù)
電子郵件
處理原始數(shù)據(jù)
原始的電子郵件
viii|目錄
結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)
SQL
NoSQL
序列化
從演變的模式中抽取和展示特征
數(shù)據(jù)流水線
數(shù)據(jù)透視
社交網(wǎng)絡(luò)
時(shí)間序列
自然語(yǔ)言
概率
小結(jié)
第3章敏捷開(kāi)發(fā)工具
可擴(kuò)展性=簡(jiǎn)潔
敏捷大數(shù)據(jù)處理
設(shè)置運(yùn)行Python的虛擬環(huán)境
使用Avro對(duì)事件進(jìn)行序列化
在Python中使用Avro
收集數(shù)據(jù)
使用Pig處理數(shù)據(jù)
安裝Pig
使用MongoDB發(fā)布數(shù)據(jù)
安裝MongoDB
安裝MongoDB的Java驅(qū)動(dòng)程序
安裝mongo-hadoop
用Pig向MongoDB推送數(shù)據(jù)
使用ElasticSearch搜索數(shù)據(jù)
安裝
使用Wonderdog整合ElasticSearch和Pig
對(duì)工作流程的反思
輕量級(jí)的Web應(yīng)用
Python和Flask
目錄|ix
展示數(shù)據(jù)
安裝Bootstrap
啟用Bootstrap
使用d3js和nvd3js可視化數(shù)據(jù)
小結(jié)
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服務(wù)
Python工作者服務(wù)
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服務(wù)
輔助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示數(shù)據(jù)
整合軟件棧
收集并序列化收件箱
處理和發(fā)布郵件數(shù)據(jù)
在瀏覽器中顯示郵件
用Flask和pymongo處理郵件數(shù)據(jù)
使用Jinja2渲染HTML5頁(yè)面
敏捷檢查點(diǎn)
生成電子郵件清單
用MongoDB顯示郵件
對(duì)數(shù)據(jù)展示的分析
x|目錄
搜索郵件
使用Pig,ElasticSearch和Wonderdog構(gòu)建索引
在網(wǎng)頁(yè)中搜索郵件數(shù)據(jù)
結(jié)論
第6章使用圖表可視化數(shù)據(jù)
優(yōu)秀的圖表
抽取實(shí)體:郵件地址
抽取郵件
對(duì)時(shí)間進(jìn)行可視化
結(jié)論
第7章利用報(bào)表探索數(shù)據(jù)
為數(shù)據(jù)添加聯(lián)系
用TF-IDF從郵件中提取關(guān)鍵字
小結(jié)
第8章預(yù)測(cè)
預(yù)測(cè)電子郵件的回復(fù)率
個(gè)性化
小結(jié)
第9章驅(qū)動(dòng)行動(dòng)
好郵件的屬性
使用樸素貝葉斯方法進(jìn)行更好的預(yù)測(cè)
P(Reply|From∩To)
P(Reply|Token)
實(shí)時(shí)預(yù)測(cè)
記錄事件日志
小結(jié)
索引

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)