123,123

內(nèi)容簡(jiǎn)介

　　社交網(wǎng)站數(shù)據(jù)如同深埋地下的“金礦”，如何利用這些數(shù)據(jù)來(lái)發(fā)現(xiàn)哪些人正通過(guò)社交媒介進(jìn)行聯(lián)系？他們正在談?wù)撌裁?？或者他們?cè)谀膬?？《社交網(wǎng)站的數(shù)據(jù)挖掘與分析（原書(shū)第2版）》第2版對(duì)上一版內(nèi)容進(jìn)行了全面更新和修訂，它將揭示回答這些問(wèn)題的方法與技巧。你將學(xué)到如何獲取、分析和匯總散落于社交網(wǎng)站（包括Facebook、Twitter、LinkedIn、Google+、 GitHub、郵件、網(wǎng)站和博客等）的數(shù)據(jù)，以及如何通過(guò)可視化找到你一直在社交世界中尋找的內(nèi)容和你聞所未聞的有用信息?！?借助IPython Notebook、自然語(yǔ)言工具包、NetworkX和其他科學(xué)計(jì)算工具挖掘主流社交網(wǎng)站■ 使用高級(jí)文本挖掘技術(shù)（如聚類(lèi)和TF-IDF）來(lái)提取人類(lèi)語(yǔ)言數(shù)據(jù)中有價(jià)值的知識(shí)■ 通過(guò)發(fā)現(xiàn)GitHub上人、編程語(yǔ)言和代碼工程間的親密性，構(gòu)建興趣圖譜■ 利用D3.js進(jìn)行交互式可視化，充分發(fā)揮HTML5和JavaScript工具包的靈活特性■ 以“問(wèn)題－解決方案－討論”的方式詳細(xì)講解深入挖掘Twitter數(shù)據(jù)的實(shí)用技術(shù)，并提供代碼示例《社交網(wǎng)站的數(shù)據(jù)挖掘與分析（原書(shū)第2版）》的配套代碼在公開(kāi)的GitHub代碼庫(kù)中進(jìn)行維護(hù)，可以通過(guò)一站式虛擬機(jī)來(lái)訪問(wèn)，你只需要使用方便易用的IPython Notebook，即可進(jìn)入愉快的交互式學(xué)習(xí)情景。

作者簡(jiǎn)介

　　Matthew A. Russell Digital Reasoning Systems公司首席技術(shù)官（CTO）、Zaffra公司負(fù)責(zé)人。作為一名計(jì)算機(jī)科學(xué)家，他熱衷于數(shù)據(jù)挖掘、開(kāi)源軟件開(kāi)發(fā)和創(chuàng)造技術(shù)以擴(kuò)展人類(lèi)智能。譯者簡(jiǎn)介蘇統(tǒng)華博士，碩士生導(dǎo)師，CUDA研究中心以及教學(xué)中心負(fù)責(zé)人。主要研究方向包括：物聯(lián)網(wǎng)大數(shù)據(jù)智能信息處理、大規(guī)模并行計(jì)算、模式識(shí)別、智能媒體交互與計(jì)算等。作為自然手寫(xiě)中文文本識(shí)別的開(kāi)拓者，四年內(nèi)代表工作被同行大篇幅他引約300次；他所建立的HIT-MW庫(kù)為全世界100多家科研院所采用；目前負(fù)責(zé)國(guó)家自然科學(xué)基金項(xiàng)目2項(xiàng)。2013年，他領(lǐng)導(dǎo)的研究組在文檔分析和識(shí)別國(guó)際會(huì)議（ICDAR’2013）上獲得手寫(xiě)漢字識(shí)別競(jìng)賽的雙料冠軍；2014年，兩項(xiàng)手寫(xiě)文字識(shí)別核心技術(shù)授權(quán)給某高新技術(shù)公司，正在為超過(guò)200萬(wàn)終端用戶提供技術(shù)服務(wù)。著有英文專著《Chinese Handwriting Recognition： An Algorithmic Perspective》（德國(guó)施普林格出版社），出版5本大數(shù)據(jù)分析方面的譯作（機(jī)械工業(yè)出版社）。

圖書(shū)目錄

前言 1
第一部分社交網(wǎng)絡(luò)導(dǎo)引
序幕 13
第1章挖掘Twitter：探索熱門(mén)話題、發(fā)現(xiàn)人們的談?wù)搩?nèi)容等 15
1.1 概述 15
1.2 Twitter風(fēng)靡一時(shí)的原因 16
1.3 探索Twitter API 18
1.4 分析140字的推文 33
1.5 本章小結(jié) 47
1.6 推薦練習(xí) 48
1.7 在線資源 48
第2章挖掘Facebook：分析粉絲頁(yè)面、查看好友關(guān)系等 50
2.1 概述 51
2.2 探索Facebook的社交圖譜API 51
2.3 分析社交圖譜聯(lián)系 62
2.4 本章小結(jié) 85
2.5 推薦練習(xí) 86
2.6 在線資源 86
第3章挖掘LinkedIn：分組職位、聚類(lèi)同行等 88
3.1 概述 89
3.2 探索LinkedIn API 89
3.3 數(shù)據(jù)聚類(lèi)速成 94
3.4 本章小結(jié) 124
3.5 推薦練習(xí) 125
3.6 在線資源 126
第4章挖掘Google+：計(jì)算文檔相似度、提取搭配等 127
4.1 概述 128
4.2 探索Google+ API 128
4.3 TF-IDF簡(jiǎn)介 138
4.4 用TF-IDF查詢?nèi)祟?lèi)語(yǔ)言數(shù)據(jù) 145
4.5 本章小結(jié) 164
4.6 推薦練習(xí) 165
4.7 在線資源 165
第5章挖掘網(wǎng)頁(yè)：使用自然語(yǔ)言處理理解人類(lèi)語(yǔ)言、總結(jié)博客內(nèi)容等 167
5.1 概述 168
5.2 抓取、解析、爬取網(wǎng)頁(yè) 168
5.3 通過(guò)解碼語(yǔ)法來(lái)探索語(yǔ)義 174
5.4 以實(shí)體為中心的分析：范式轉(zhuǎn)換 192
5.5 人類(lèi)語(yǔ)言數(shù)據(jù)處理分析的質(zhì)量 200
5.6 本章小結(jié) 203
5.7 推薦練習(xí) 203
5.8 在線資源 204
第6章挖掘郵箱：分析誰(shuí)和誰(shuí)說(shuō)什么以及說(shuō)的頻率等 206
6.1 概述 207
6.2 獲取和處理郵件語(yǔ)料庫(kù) 207
6.3 分析Enron語(yǔ)料庫(kù) 225
6.4 探索和可視化時(shí)序趨勢(shì) 241
6.5 分析你自己的郵件數(shù)據(jù) 244
6.6 本章小結(jié) 250
6.7 推薦練習(xí) 251
6.8 在線資源 251
第7章挖掘GitHub：檢查軟件協(xié)同習(xí)慣、構(gòu)建興趣圖譜等 253
7.1 概述 254
7.2 探索GitHub的API 254
7.3 使用屬性圖為數(shù)據(jù)建模 260
7.4 分析GitHub興趣圖譜 264
7.5 本章小結(jié) 286
7.6 推薦練習(xí) 287
7.7 在線資源 287
第8章挖掘帶標(biāo)記語(yǔ)義網(wǎng)：提取微格式、推斷資源描述框架等 289
8.1 概述 290
8.2 微格式：易于實(shí)現(xiàn)的元數(shù)據(jù) 290
8.3 從語(yǔ)義標(biāo)記過(guò)渡到語(yǔ)義網(wǎng)：一個(gè)小插曲 304
8.4 語(yǔ)義網(wǎng)：發(fā)展中的變革 304
8.5 本章小結(jié) 310
8.6 推薦的練習(xí) 311
8.7 在線資源 311
第二部分 Twitter實(shí)用指南
第9章 Twitter實(shí)用指南 317
9.1 訪問(wèn)Twitter的API（開(kāi)發(fā)目的） 318
9.2 使用OAuth訪問(wèn)Twitter的API（產(chǎn)品目的） 319
9.3 探索流行話題 323
9.4 查找推文 324
9.5 構(gòu)造方便的函數(shù)調(diào)用 325
9.6 使用文本文件存儲(chǔ)JSON數(shù)據(jù) 326
9.7 使用MongoDB存儲(chǔ)和訪問(wèn)JSON數(shù)據(jù) 327
9.8 使用信息流API對(duì)Twitter數(shù)據(jù)管道抽樣 329
9.9 采集時(shí)序數(shù)據(jù) 330
9.10 提取推文實(shí)體 332
9.11 特定的推文范圍內(nèi)查找最流行的推文 333
9.12 特定的推文范圍內(nèi)查找最流行的推文實(shí)體 335
9.13 對(duì)頻率分析制表 336
9.14 查找轉(zhuǎn)推了狀態(tài)的用戶 337
9.15 提取轉(zhuǎn)推的屬性 339
9.16 創(chuàng)建健壯的Twitter請(qǐng)求 340
9.17 獲取用戶個(gè)人資料信息 343
9.18 從任意的文本中提取推文實(shí)體 344
9.19 獲得用戶所有的好友和關(guān)注者 345
9.20 分析用戶的好友和關(guān)注者 347
9.21 獲取用戶的推文 348
9.22 爬取好友關(guān)系圖 350
9.23 分析推文內(nèi)容 351
9.24 提取鏈接目標(biāo)摘要 353
9.25 分析用戶收藏的推文 356
9.26 本章小結(jié) 357
9.27 推薦練習(xí) 358
9.28 在線資源 359
第三部分附錄
附錄A 關(guān)于本書(shū)虛擬機(jī)體驗(yàn)的信息 363
附錄B OAuth入門(mén) 364
附錄C Python和IPython Notebook的使用技巧 368

作　者：	（美）Matthew A. Russell
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)

ISBN：	9787111486992	出版時(shí)間：	2015-04-01	包裝：
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

社交網(wǎng)站的數(shù)據(jù)挖掘與分析（原書(shū)第2版）

購(gòu)買(mǎi)這本書(shū)可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書(shū)目錄

本目錄推薦

AIGC從入門(mén)到實(shí)戰(zhàn)：ChatGPT+Mid…

人工智能與區(qū)塊鏈原理及應(yīng)用研究…

數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用

人工智能概論

數(shù)據(jù)庫(kù)管理與開(kāi)發(fā)項(xiàng)目教程（SQL…

大數(shù)據(jù)工程技術(shù)人員：初級(jí)大數(shù)據(jù)…

ChatGPT大模型：技術(shù)場(chǎng)景與商業(yè)…

能源系統(tǒng)人工智能方法

多模式移動(dòng)操作機(jī)器人

AIGC妙筆生花：口袋里的人工智能…