注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲實戰(zhàn)

網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲實戰(zhàn)

網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲實戰(zhàn)

定 價:¥79.00

作 者: 錢洋,姜元春 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121376078 出版時間: 2020-01-01 包裝: 平裝
開本: 16 頁數(shù): 380 字數(shù):  

內(nèi)容簡介

  《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲實戰(zhàn)》以Java為開發(fā)語言,系統(tǒng)地介紹了網(wǎng)絡(luò)爬蟲的理論知識和基礎(chǔ)工具,包括網(wǎng)絡(luò)爬蟲涉及的Java基礎(chǔ)知識、HTTP協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包、網(wǎng)頁內(nèi)容獲取、網(wǎng)頁內(nèi)容解析和網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲等。本書選取典型網(wǎng)站,采用案例講解的方式介紹網(wǎng)絡(luò)爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網(wǎng)絡(luò)爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。 《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù):Java網(wǎng)絡(luò)爬蟲實戰(zhàn)》適用于Java網(wǎng)絡(luò)爬蟲開發(fā)的初學(xué)者和進階者;也可作為網(wǎng)絡(luò)爬蟲課程教學(xué)的參考書,供高等院校文本挖掘、自然語言處理、大數(shù)據(jù)商務(wù)分析等相關(guān)學(xué)科的本科生和研究生參考使用;也可供企業(yè)網(wǎng)絡(luò)爬蟲開發(fā)人員參考使用。

作者簡介

  錢洋 合肥工業(yè)大學(xué)管理科學(xué)與工程系博士、CSDN博客專家。作為技術(shù)人員參與過多個橫向、縱向?qū)W術(shù)課題,負責(zé)數(shù)據(jù)采集系統(tǒng)的設(shè)計與開發(fā)工作。在CSDN(博客名稱:HFUT_qianyang)上撰寫了多篇關(guān)于數(shù)據(jù)采集、自然語言處理、編程語言等領(lǐng)域的原創(chuàng)博客。 姜元春 合肥工業(yè)大學(xué)教授、博士生導(dǎo)師。長期從事電子商務(wù)、商務(wù)智能、數(shù)據(jù)采集與挖掘等方面的理論研究與教學(xué)工作。先后主持過國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項目、國家自然科學(xué)基金重大研究計劃培育項目、國家自然科學(xué)基金青年科學(xué)基金項目、教育部人文社科青年基金項目、阿里巴巴青年學(xué)者支持計劃、CCF-騰訊犀牛鳥基金項目等課題的研究工作。

圖書目錄

第1 章 網(wǎng)絡(luò)爬蟲概述與原理 1
1.1 網(wǎng)絡(luò)爬蟲簡介 1
1.2 網(wǎng)絡(luò)爬蟲分類 2
1.3 網(wǎng)絡(luò)爬蟲流程 4
1.4 網(wǎng)絡(luò)爬蟲的采集策略 5
1.5 學(xué)習(xí)網(wǎng)絡(luò)爬蟲的建議 5
1.6 本章小結(jié) 6
第2 章 網(wǎng)絡(luò)爬蟲涉及的Java 基礎(chǔ)知識 7
2.1 開發(fā)環(huán)境的搭建 7
2.1.1 JDK 的安裝及環(huán)境變量配置 7
2.1.2 Eclipse 的下載 9
2.2 基本數(shù)據(jù)類型 10
2.3 數(shù)組 11
2.4 條件判斷與循環(huán) 12
2.5 集合 15
2.5.1 List 和Set 集合 15
2.5.2 Map 集合 16
2.5.3 Queue 集合 17
2.6 對象與類 19
2.7 String 類 21
2.8 日期和時間處理 23
2.9 正則表達式 26
2.10 Maven 工程的創(chuàng)建 29
2.11 log4j 的使用 33
2.12 本章小結(jié) 40
第3 章 HTTP 協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包 41
3.1 HTTP 協(xié)議簡介 41
3.2 URL 42
3.3 報文 44
3.4 HTTP 請求方法 46
3.5 HTTP 狀態(tài)碼 46
3.5.1 狀態(tài)碼2XX 47
3.5.2 狀態(tài)碼3XX 47
3.5.3 狀態(tài)碼4XX 48
3.5.4 狀態(tài)碼5XX 48
3.6 HTTP 信息頭 48
3.6.1 通用頭 49
3.6.2 請求頭 52
3.6.3 響應(yīng)頭 55
3.6.4 實體頭 56
3.7 HTTP 響應(yīng)正文 57
3.7.1 HTML 58
3.7.2 XML 60
3.7.3 JSON 61
3.8 網(wǎng)絡(luò)抓包 64
3.8.1 簡介 64
3.8.2 使用情境 65
3.8.3 瀏覽器實現(xiàn)網(wǎng)絡(luò)抓包 65
3.8.4 其他網(wǎng)絡(luò)抓包工具推薦 70
3.9 本章小結(jié) 70
第4 章 網(wǎng)頁內(nèi)容獲取 71
4.1 Jsoup 的使用 71
4.1.1 jar 包的下載 71
4.1.2 請求URL 72
4.1.3 設(shè)置頭信息 75
4.1.4 提交請求參數(shù) 78
4.1.5 超時設(shè)置 80
4.1.6 代理服務(wù)器的使用 81
4.1.7 響應(yīng)轉(zhuǎn)輸出流(圖片、PDF 等的下載) 83
4.1.8 HTTPS 請求認證 85
4.1.9 大文件內(nèi)容獲取問題 89
4.2 HttpClient 的使用 91
4.2.1 jar 包的下載 91
4.2.2 請求URL 92
4.2.3 EntityUtils 類 97
4.2.4 設(shè)置頭信息 98
4.2.5 POST 提交表單 100
4.2.6 超時設(shè)置 103
4.2.7 代理服務(wù)器的使用 105
4.2.8 文件下載 106
4.2.9 HTTPS 請求認證 108
4.2.10 請求重試 111
4.2.11 多線程執(zhí)行請求 114
4.3 URLConnection 與HttpURLConnection 117
4.3.1 實例化 117
4.3.2 獲取網(wǎng)頁內(nèi)容 118
4.3.3 GET 請求 118
4.3.4 模擬提交表單(POST 請求) 119
4.3.5 設(shè)置頭信息 120
4.3.6 連接超時設(shè)置 121
4.3.7 代理服務(wù)器的使用 122
4.3.8 HTTPS 請求認證 122
4.4 本章小結(jié) 124
第5 章 網(wǎng)頁內(nèi)容解析 125
5.1 HTML 解析 125
5.1.1 CSS 選擇器 125
5.1.2 Xpath 語法 127
5.1.3 Jsoup 解析HTML 128
5.1.4 HtmlCleaner 解析HTML 135
5.1.5 HTMLParser 解析HTML 139
5.2 XML 解析 144
5.3 JSON 解析 145
5.3.1 JSON 校正 145
5.3.2 org.json 解析JSON 147
5.3.3 Gson 解析JSON 152
5.3.4 Fastjson 解析JSON 157
5.3.5 網(wǎng)絡(luò)爬蟲實戰(zhàn)演練 159
5.4 本章小結(jié) 165
第6 章 網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲 166
6.1 輸入流與輸出流 166
6.1.1 簡介 166
6.1.2 File 類 166
6.1.3 文件字節(jié)流 169
6.1.4 文件字符流 172
6.1.5 緩沖流 176
6.1.6 網(wǎng)絡(luò)爬蟲下載圖片實戰(zhàn) 180
6.1.7 網(wǎng)絡(luò)爬蟲文本存儲實戰(zhàn) 184
6.2 Excel 存儲 188
6.2.1 Jxl 的使用 188
6.2.2 POI 的使用 191
6.2.3 爬蟲案例 198
6.3 MySQL 數(shù)據(jù)存儲 202
6.3.1 數(shù)據(jù)庫的基本概念 203
6.3.2 SQL 語句基礎(chǔ) 203
6.3.3 Java 操作數(shù)據(jù)庫 207
6.3.4 爬蟲案例 217
6.4 本章小結(jié) 219
第7 章 網(wǎng)絡(luò)爬蟲實戰(zhàn)項目 220
7.1 新聞數(shù)據(jù)采集 220
7.1.1 采集的網(wǎng)頁 220
7.1.2 框架介紹 222
7.1.3 程序編寫 223
7.2 企業(yè)信息采集 235
7.2.1 采集的網(wǎng)頁 235
7.2.2 框架介紹 238
7.2.3 第一層信息采集 239
7.2.4 第二層信息采集 248
7.3 股票信息采集 256
7.3.1 采集的網(wǎng)頁 256
7.3.2 框架介紹 257
7.3.3 程序設(shè)計 258
7.3.4 Quartz 實現(xiàn)定時調(diào)度任務(wù) 267
7.4 本章小結(jié) 271
第8 章 Selenium 的使用 272
8.1 Selenium 簡介 272
8.2 Java Selenium 環(huán)境搭建 272
8.3 瀏覽器的操控 274
8.4 元素定位 276
8.4.1 id 定位 276
8.4.2 name 定位 277
8.4.3 class 定位 278
8.4.4 tag name 定位 278
8.4.5 link text 定位 278
8.4.6 Xpath 定位 279
8.4.7 CSS 選擇器定位 279
8.5 模擬登錄 280
8.6 動態(tài)加載JavaScript 數(shù)據(jù)(操作滾動條) 283
8.7 隱藏瀏覽器 285
8.8 截取驗證碼 287
8.9 本章小結(jié) 291
第9 章 網(wǎng)絡(luò)爬蟲開源框架 292
9.1 Crawler4j 的使用 292
9.1.1 Crawler4j 簡介 292
9.1.2 jar 包的下載 292
9.1.3 入門案例 293
9.1.4 相關(guān)配置 297
9.1.5 圖片的采集 300
9.1.6 數(shù)據(jù)采集入庫 304
9.2 WebCollector 的使用 312
9.2.1 WebCollector 簡介 312
9.2.2 jar 包的下載 313
9.2.3 入門案例 313
9.2.4 相關(guān)配置 318
9.2.5 HTTP 請求擴展 319
9.2.6 翻頁數(shù)據(jù)采集 327
9.2.7 圖片的采集 331
9.2.8 數(shù)據(jù)采集入庫 334
9.3 WebMagic 的使用 347
9.3.1 WebMagic 簡介 347
9.3.2 jar 包的下載 347
9.3.3 入門案例(翻頁數(shù)據(jù)采集) 347
9.3.4 相關(guān)配置 351
9.3.5 數(shù)據(jù)存儲方式 352
9.3.6 數(shù)據(jù)采集入庫 355
9.3.7 圖片的采集 365
9.4 本章小結(jié) 368

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號