注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計其他編程語言/工具自己動手寫搜索引擎

自己動手寫搜索引擎

自己動手寫搜索引擎

定 價:¥55.00

作 者: 羅剛 編著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 程序設計

ISBN: 9787121096402 出版時間: 2009-12-01 包裝: 平裝
開本: 16開 頁數(shù): 353 字數(shù):  

內容簡介

  《自己動手寫搜索引擎》是獵兔企業(yè)搜索開發(fā)團隊的軟件產(chǎn)品研發(fā)和項目實踐的經(jīng)驗匯總?!蹲约簞邮謱懰阉饕妗啡轿徽宫F(xiàn)出一個商用級別的Lucene搜索解決方案,主要包括爬蟲、自然語言處理和搜索實現(xiàn)部分。爬蟲部分介紹了網(wǎng)頁遍歷方法和從網(wǎng)頁提取主要內容的方法。自然語言處理部分包括了中文分詞從理論到實現(xiàn)以及在搜索引擎中的實用等細節(jié)。其他自然語言處理的經(jīng)典問題與實現(xiàn)包括:文檔排重、文本分類、自動聚類、語法解析樹、拼寫檢查、拼音轉換等理論與實現(xiàn)方法。在實現(xiàn)搜索方面,《自己動手寫搜索引擎》用簡單的例子介紹了完整的搜索實現(xiàn)過程,覆蓋了從索引庫的設計和索引庫與數(shù)據(jù)庫的同步到搜索用戶界面設計與實現(xiàn)。搜索用戶界面包括實現(xiàn)布爾邏輯查詢、按區(qū)間范圍查詢、搜索結果按日期排序等?!蹲约簞邮謱懰阉饕妗愤€進一步介紹了搜索排序的優(yōu)化方法。最后以基于Lucene的搜索服務器Solr為例,展示了Lucene的最新應用方法。

作者簡介

  羅剛,獵兔搜索(http://www.lietu.com)創(chuàng)始人,當前獵兔搜索在北京和上海均設有研發(fā)部。帶領獵兔搜索技術開發(fā)團隊先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網(wǎng)絡信息監(jiān)測系統(tǒng)等,實現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實時監(jiān)測。

圖書目錄

第1章 遍歷搜索引擎技術/1
1.1 30分鐘實現(xiàn)的搜索引擎/1
1.1.1 準備工作環(huán)境(10分鐘)/1
1.1.2 編寫代碼(15分鐘)/3
1.1.3 發(fā)布運行(5分鐘)/5
1.2 Google神話/9
1.3 體驗搜索引擎/9
1.4 搜索語法/10
1.5 你也可以做搜索引擎/13
1.6 搜索引擎基本技術/14
1.6.1 網(wǎng)絡蜘蛛/14
1.6.2 全文索引結構/14
1.6.3 Lucene全文檢索引擎/15
1.6.4 Nutch網(wǎng)絡搜索軟件/16
1.6.5 用戶界面/17
1.7 商業(yè)搜索引擎技術介紹/19
1.7.1 通用搜索/19
1.7.2 垂直搜索/20
1.7.3 站內搜索/21
1.7.4 桌面搜索/23
1.8 本章小結/24
第2章 獲得海量數(shù)據(jù)/25
2.1 自己的網(wǎng)絡蜘蛛/25
2.1.1 抓取網(wǎng)頁/25
2.1.2 網(wǎng)絡蜘蛛遍歷與實現(xiàn)/26
2.1.3 改進網(wǎng)絡蜘蛛/30
2.1.4 MP3抓取/34
2.1.5 RSS抓取/36
2.1.6 圖片抓取/38
2.1.7 垂直行業(yè)抓取/39
2.2 抓取數(shù)據(jù)庫中的內容/42
2.2.1 建立數(shù)據(jù)視圖/42
2.2.2 JDBC數(shù)據(jù)庫連接/43
2.2.3 增量抓取/45
2.3 抓取本地硬盤上的文件/47
2.4 本章小結/49
第3章 提取文檔中的文本內容/50
3.1 從HTML文件中提取文本/50
3.1.1 HtmlParser介紹/53
3.1.2 結構化信息提取/63
3.1.3 查看網(wǎng)頁的DOM結構/68
3.1.4 正文提取的工具NekoHTML/71
3.1.5 網(wǎng)頁去噪/73
3.1.6 網(wǎng)頁結構相似度計算/76
3.1.7 網(wǎng)站風格樹去除文檔噪聲/80
3.1.8 正文提取/92
3.2 從非HTML文件中提取文本/98
3.2.1 TEXT文件/98
3.2.2 PDF文件/98
3.2.3 Word文件/105
3.2.4 RTF文件/106
3.2.5 Excel文件/107
3.2.6 PowerPoint文件/108
3.3 流媒體內容提取/109
3.3.1 音頻流內容提取/109
3.3.2 視頻流內容提取/111
3.4 抓取限制應對方法/113
3.5 本章小結/114
第4章 中文分詞/115
4.1 Lucene中的中文分詞/115
4.2 Lietu中文分詞的使用/116
4.3 中文分詞的原理/117
4.4 查找詞典算法/118
4.5 最大概率分詞方法/123
4.6 新詞發(fā)現(xiàn)/127
4.7 詞性標注/129
4.8 本章小結/139
第5章 自然語言處理/140
5.1 語法解析樹/140
5.2 文檔排重/141
5.3 中文關鍵詞提取/142
5.3.1 關鍵詞提取的基本方法/142
5.3.2 從網(wǎng)頁中提取關鍵詞/145
5.4 相關搜索/145
5.5 拼寫檢查/148
5.5.1 英文拼寫檢查/148
5.5.2 中文拼寫檢查/149
5.6 自動摘要/153
5.6.1 自動摘要技術/153
5.6.2 自動摘要的設計/154
5.6.3 Lucene中的動態(tài)摘要/162
5.7 自動分類/163
5.7.1 Classifier4J/164
5.7.2 自動分類的接口定義/165
5.7.3 自動分類的SVM方法實現(xiàn)/166
5.7.4 多級分類/167
5.8 自動聚類/170
5.8.1 聚類的定義/170
5.8.2 K均值聚類方法/170
5.8.3 K均值實現(xiàn)/173
5.9 拼音轉換/179
5.10 語義搜索/180
5.11 跨語言搜索/186
5.12 本章小結/188
第6章 創(chuàng)建索引庫/189
6.1 設計索引庫結構/190
6.1.1 理解Lucene的索引庫結構/190
6.1.2 設計一個簡單的索引庫/192
6.2 創(chuàng)建和維護索引庫/193
6.2.1 創(chuàng)建索引庫/193
6.2.2 向索引庫中添加索引文檔/194
6.2.3 刪除索引庫中的索引文檔/196
6.2.4 更新索引庫中的索引文檔/197
6.2.5 索引的合并/197
6.2.6 索引的定時更新/197
6.2.7 索引的備份和恢復/198
6.2.8 修復索引/199
6.3 讀寫并發(fā)控制/200
6.4 優(yōu)化使用Lucene/200
6.4.1 索引優(yōu)化/201
6.4.2 查詢優(yōu)化/202
6.4.3 實現(xiàn)時間加權排序/206
6.4.4 實現(xiàn)字詞混合索引/207
6.4.5 定制Similarity/214
6.4.6 定制Tokenizer/215
6.5 查詢大容量索引/217
6.6 本章小結/218
第7章 用戶界面設計與實現(xiàn)/219
7.1 Lucene搜索接口(search代碼)/219
7.2 搜索頁面設計/221
7.2.1 用于顯示搜索結果的taglib/221
7.2.2 用于搜索結果分頁的taglib/223
7.2.3 設計一個簡單的搜索頁面/225
7.3 實現(xiàn)搜索接口/227
7.3.1 布爾搜索/227
7.3.2 指定范圍搜索/228
7.3.3 搜索結果排序/233
7.3.4 搜索頁面的索引緩存與更新/234
7.4 實現(xiàn)關鍵詞高亮顯示/236
7.5 實現(xiàn)分類統(tǒng)計視圖/239
7.6 實現(xiàn)相似文檔搜索/244
7.7 實現(xiàn)AJAX自動完成/246
7.7.1 總體結構/247
7.7.2 服務器端處理/247
7.7.3 瀏覽器端處理/249
7.7.4 服務器端改進/250
7.7.5 部署總結/261
7.8 jQuery實現(xiàn)的自動完成/262
7.9 集成其他功能/267
7.9.1 拼寫檢查/267
7.9.2 分類統(tǒng)計/267
7.9.3 相關搜索/271
7.9.4 再次查找/274
7.9.5 搜索日志/275
7.10 搜索日志分析/276
7.11 本章小結/280
第8章 其他高級主題/281
8.1 使用Solr實現(xiàn)分布式搜索/281
8.1.1 Solr服務器端的配置與中文支持/282
8.1.2 把數(shù)據(jù)放進Solr/287
8.1.3 刪除數(shù)據(jù)/289
8.1.4 客戶端搜索界面/290
8.1.5 Solr索引庫的查找/292
8.1.6 索引分發(fā)/294
8.1.7 Solr搜索優(yōu)化/298
8.1.8 Solr中字詞混合索引/302
8.1.9 相關檢索/304
8.1.10 搜索結果去重/307
8.1.11 分布式搜索/311
8.1.12 SolrJ查詢分析器/315
8.1.13 擴展SolrJ/325
8.1.14 擴展Solr/327
8.1.15 Solr的.NET客戶端/333
8.1.16 Solr的PHP客戶端/334
8.2 圖像的OCR識別/336
8.3 競價排名/343
8.4 Web圖分析/344
8.5 使用并行程序分析數(shù)據(jù)/350
8.6 RSS搜索/351
8.7 本章小結/353
參考資料/354

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號