注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python3網(wǎng)絡(luò)爬蟲寶典

Python3網(wǎng)絡(luò)爬蟲寶典

Python3網(wǎng)絡(luò)爬蟲寶典

定 價(jià):¥79.00

作 者: 韋世東 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121394065 出版時(shí)間: 2020-09-01 包裝: 平裝
開本: 16開 頁數(shù): 272 字?jǐn)?shù):  

內(nèi)容簡介

  本書從實(shí)際的爬蟲業(yè)務(wù)需求延伸到知識點(diǎn)和具體實(shí)現(xiàn),并詳細(xì)介紹了其中的原理。首先帶領(lǐng)讀者領(lǐng)略爬蟲程序的構(gòu)成和完整鏈條,學(xué)習(xí)自動化工具的應(yīng)用場景和基本使用;接著介紹了增量爬取的分類和具體實(shí)現(xiàn)、基于Redis 的分布式爬蟲實(shí)現(xiàn)和基于RabbitMQ 的分布式爬蟲實(shí)現(xiàn),通過閱讀論文和源碼剖析詳細(xì)介紹了高準(zhǔn)確率的網(wǎng)頁正文自動化提取方法;然后通過源碼調(diào)試了解到與Python 項(xiàng)目的部署和調(diào)度相關(guān)的知識,進(jìn)而動手實(shí)踐,編寫了一款具備權(quán)限控制、Python 通用項(xiàng)目部署、定時(shí)調(diào)度、異常監(jiān)控和釘釘機(jī)器人消息通知的爬蟲項(xiàng)目管理平臺;最后通過解讀分布式調(diào)度平臺的核心架構(gòu),幫助大家了解分布式架構(gòu)中最為重要的節(jié)點(diǎn)通信、文件同步等知識。本書適合爬蟲工程師、爬蟲技術(shù)愛好者和Python 開發(fā)者閱讀,也適合爬蟲團(tuán)隊(duì)管理者、高校教師和培訓(xùn)機(jī)構(gòu)的講師閱讀。

作者簡介

  韋世東, 資深爬蟲工程師、2019 華為云·云享專家、掘金社區(qū)優(yōu)秀作者、GitChat 認(rèn)證作者、夜幕團(tuán)隊(duì)(Night Team)成員、《Python3 反爬蟲原理與繞過實(shí)戰(zhàn)》作者,對反爬蟲和逆向有研究,精通爬蟲架構(gòu)設(shè)計(jì)和工程鏈路實(shí)踐,搭建過日流量億級的爬蟲架構(gòu)。

圖書目錄

目錄
第1 章 爬蟲程序的構(gòu)成和完整鏈條 ........................................................................ 1
1.1 一個(gè)簡單的爬蟲程序 ................................................................................ 1
1.2 爬蟲的完整鏈條 ........................................................................................ 3
1.3 爬取下來的數(shù)據(jù)被用在什么地方 ............................................................ 7
1.4 爬蟲工程師常用的庫 .............................................................................. 11
1.4.1 網(wǎng)絡(luò)請求庫 .................................................................................. 11
1.4.2 網(wǎng)頁文本解析............................................................................... 19
1.5 數(shù)據(jù)存儲 .................................................................................................. 30
1.5.1 將數(shù)據(jù)存入MySQL 數(shù)據(jù)庫 ........................................................ 31
1.5.2 將數(shù)據(jù)存入MongoDB 數(shù)據(jù)庫 .................................................... 34
1.5.3 將數(shù)據(jù)存入Redis 數(shù)據(jù)庫 ............................................................ 36
1.5.4 Excel 文件的讀寫 ........................................................................ 38
1.6 小試牛刀——出版社新聞資訊爬蟲 ....................................................... 42
實(shí)踐題 ............................................................................................................... 46
本章小結(jié) ........................................................................................................... 47
第2 章 自動化工具的使用 ...................................................................................... 48
2.1 網(wǎng)頁渲染工具 .......................................................................................... 48
2.1.1 WebDriver 是什么 ........................................................................ 51
2.1.2 Selenium 的介紹和基本使用 ....................................................... 52
2.1.3 Pyppeteer 的介紹和基本使用 ...................................................... 59
2.1.4 Splash 知識擴(kuò)展 ........................................................................... 61
本節(jié)小結(jié) .................................................................................................. 62
2.2 App 自動化工具 ...................................................................................... 62
2.2.1 Android 調(diào)試橋 ............................................................................ 62
2.2.2 Airtest Project 與Poco ................................................................. 64
VIII Python3 網(wǎng)絡(luò)爬蟲寶典
2.2.3 爬取App 中的圖片 ...................................................................... 75
2.2.4 控制多臺設(shè)備............................................................................... 78
本節(jié)小結(jié) .................................................................................................. 79
實(shí)踐題 ............................................................................................................... 79
本章小結(jié) ........................................................................................................... 79
第3 章 增量爬取的原理與實(shí)現(xiàn) .............................................................................. 80
3.1 增量爬取的分類和實(shí)現(xiàn)原理 .................................................................. 81
3.1.1 增量爬取的分類 ........................................................................... 81
3.1.2 增量爬取的實(shí)現(xiàn)原理 ................................................................... 83
本節(jié)小結(jié) .................................................................................................. 88
3.2 增量池的復(fù)雜度和效率 .......................................................................... 88
3.2.1 增量池的時(shí)間復(fù)雜度 ................................................................... 88
3.2.2 增量池的空間復(fù)雜度 ................................................................... 95
本節(jié)小結(jié) ................................................................................................ 103
3.3 Redis 的數(shù)據(jù)持久化 .............................................................................. 103
3.3.1 持久化方式的分類和特點(diǎn) ......................................................... 103
3.3.2 RDB 持久化的實(shí)踐 ................................................................... 106
3.3.3 AOF 持久化的實(shí)踐 .................................................................... 112
3.3.4 Redis 密碼持久化 ...................................................................... 115
本節(jié)小結(jié) ................................................................................................ 115
實(shí)踐題 ............................................................................................................. 115
本章小結(jié) ......................................................................................................... 116
第4 章 分布式爬蟲的設(shè)計(jì)與實(shí)現(xiàn) ........................................................................ 117
4.1 分布式爬蟲的原理和分類 .................................................................... 117
4.1.1 分布式爬蟲的原理 ..................................................................... 117
4.1.2 分布式爬蟲的分類 ..................................................................... 120
4.1.3 共享隊(duì)列的選擇 ......................................................................... 122
本節(jié)小結(jié) ................................................................................................ 125
4.2 分布式爬蟲庫Scrapy-Redis .................................................................. 126
4.2.1 Scrapy-Redis 的介紹和基本使用 .............................................. 127
4.2.2 去重器、調(diào)度器和隊(duì)列的源碼解析 ......................................... 129
目錄 IX
本節(jié)小結(jié) ................................................................................................ 134
4.3 基于Redis 的分布式爬蟲 ..................................................................... 134
4.3.1 對等分布式爬蟲的實(shí)現(xiàn) ............................................................. 135
4.3.2 主從分布式爬蟲的實(shí)現(xiàn) ............................................................. 139
本節(jié)小結(jié) ................................................................................................ 141
4.4 基于RabbitMQ 的分布式爬蟲 ............................................................. 141
4.4.1 RabbitMQ 的安裝和基本操作 ................................................... 142
4.4.2 分布式爬蟲的具體實(shí)現(xiàn) ............................................................. 146
本節(jié)小結(jié) ................................................................................................ 152
實(shí)踐題 ............................................................................................................. 152
本章小結(jié) ......................................................................................................... 152
第5 章 網(wǎng)頁正文自動化提取方法 ........................................................................ 153
5.1 Python Readability ................................................................................. 155
5.2 基于文本及符號密度的網(wǎng)頁正文提取方法 ......................................... 158
5.3 GeneralNewsExtractor ............................................................................ 162
5.3.1 GeneralNewsExtractor 的安裝和使用 ....................................... 162
5.3.2 GeneralNewsExtractor 的源碼解讀 ........................................... 165
本節(jié)小結(jié) ................................................................................................ 175
本章小結(jié) ............................................................

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號