注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)JAVA及其相關(guān)解密搜索引擎技術(shù)實(shí)戰(zhàn):Lucene & Java精華版(第2版)

解密搜索引擎技術(shù)實(shí)戰(zhàn):Lucene & Java精華版(第2版)

解密搜索引擎技術(shù)實(shí)戰(zhàn):Lucene & Java精華版(第2版)

定 價(jià):¥79.00

作 者: 羅剛 等
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787121217326 出版時(shí)間: 2014-01-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 512 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《解密搜索引擎技術(shù)實(shí)戰(zhàn):Lucene & Java精華版(第2版)》總結(jié)搜索引擎相關(guān)理論與實(shí)際解決方案,并給出了Java實(shí)現(xiàn),其中利用了流行的開(kāi)源項(xiàng)目Lucene和Solr,而且還包括原創(chuàng)的實(shí)現(xiàn)?!督饷芩阉饕婕夹g(shù)實(shí)戰(zhàn):Lucene & Java精華版(第2版)》主要包括總體介紹部分、爬蟲(chóng)部分、自然語(yǔ)言處理部分、全文檢索部分以及相關(guān)案例分析。爬蟲(chóng)部分介紹了網(wǎng)頁(yè)遍歷方法和如何實(shí)現(xiàn)增量抓取,并介紹了從網(wǎng)頁(yè)等各種格式的文檔中提取主要內(nèi)容的方法。自然語(yǔ)言處理部分從統(tǒng)計(jì)機(jī)器學(xué)習(xí)的原理出發(fā),包括了中文分詞與詞性標(biāo)注的理論與實(shí)現(xiàn)及在搜索引擎中的應(yīng)用等細(xì)節(jié),同時(shí)對(duì)文檔排重、文本分類、自動(dòng)聚類、句法分析樹(shù)、拼寫(xiě)檢查等自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題進(jìn)行了深入淺出的介紹,并總結(jié)了實(shí)現(xiàn)方法。在全文檢索部分,結(jié)合Lucene介紹了搜索引擎的原理與進(jìn)展。用簡(jiǎn)單的例子介紹了Lucene的最新應(yīng)用方法,包括完整的搜索實(shí)現(xiàn)過(guò)程:從完成索引到搜索用戶界面的實(shí)現(xiàn)。此外還進(jìn)一步介紹了實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)搜索的方法,展示了Solr的用法以及實(shí)現(xiàn)分布式搜索服務(wù)集群的方法。最后介紹了在地理信息系統(tǒng)領(lǐng)域和戶外活動(dòng)搜索領(lǐng)域的應(yīng)用。

作者簡(jiǎn)介

  羅剛,獵兔搜索創(chuàng)始人,帶領(lǐng)獵兔搜索技術(shù)開(kāi)發(fā)團(tuán)隊(duì)先后開(kāi)發(fā)出獵兔中文分詞系統(tǒng)、獵兔信息提取系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測(cè)系統(tǒng)等,實(shí)現(xiàn)互聯(lián)網(wǎng)信息的采集、過(guò)濾、搜索和實(shí)時(shí)監(jiān)測(cè)。曾編寫(xiě)出版《自己動(dòng)手寫(xiě)搜索引擎》、《自己動(dòng)手寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)》、《使用C#開(kāi)發(fā)搜索引擎》,獲得廣泛好評(píng)。在北京和上海等地均有獵兔培訓(xùn)的學(xué)員。

圖書(shū)目錄

第1章 搜索引擎總體結(jié)構(gòu) 1
1.1 搜索引擎基本模塊 1
1.2 開(kāi)發(fā)環(huán)境 2
1.3 搜索引擎工作原理 3
1.3.1 網(wǎng)絡(luò)爬蟲(chóng) 4
1.3.2 全文索引結(jié)構(gòu)與LUCENE實(shí)現(xiàn) 4
1.3.3 搜索用戶界面 7
1.3.4 計(jì)算框架 8
1.3.5 文本挖掘 9
1.4 本章小結(jié) 9
第2章 網(wǎng)絡(luò)爬蟲(chóng)的原理與應(yīng)用 11
2.1 爬蟲(chóng)的基本原理 11
2.2 爬蟲(chóng)架構(gòu) 14
2.2.1 基本架構(gòu) 14
2.2.2 分布式爬蟲(chóng)架構(gòu) 16
2.2.3 垂直爬蟲(chóng)架構(gòu) 17
2.3 抓取網(wǎng)頁(yè) 18
2.3.1 下載網(wǎng)頁(yè)的基本方法 19
2.3.2 網(wǎng)頁(yè)更新 23
2.3.3 抓取限制應(yīng)對(duì)方法 25
2.3.4 URL地址提取 28
2.3.5 抓取JAVASCRIPT動(dòng)態(tài)頁(yè)面 28
2.3.6 抓取即時(shí)信息 31
2.3.7 抓取暗網(wǎng) 32
2.3.8 信息過(guò)濾 33
2.3.9 最好優(yōu)先遍歷 39
2.4 存儲(chǔ)URL地址 40
2.4.1 BERKELEYDB 40
2.4.2 布隆過(guò)濾器 42
2.5 并行抓取 45
2.5.1 多線程爬蟲(chóng) 46
2.5.2 垂直搜索的多線程爬蟲(chóng) 48
2.5.3 異步I/O 49
2.6 RSS抓取 53
2.7 抓取FTP 55
2.8 下載圖片 55
2.9 圖像的OCR識(shí)別 56
2.9.1 圖像二值化 57
2.9.2 切分圖像 60
2.9.3 SVM分類 63
2.10 WEB結(jié)構(gòu)挖掘 67
2.10.1 存儲(chǔ)WEB圖 67
2.10.2 PAGERANK算法 71
2.10.3 HITS算法 77
2.10.4 主題相關(guān)的PAGERANK 81
2.11 部署爬蟲(chóng) 83
2.12 本章小結(jié) 83
第3章 索引內(nèi)容提取 86
3.1 從HTML文件中提取文本 86
3.1.1 識(shí)別網(wǎng)頁(yè)的編碼 86
3.1.2 網(wǎng)頁(yè)編碼轉(zhuǎn)換為字符串編碼 89
3.1.3 使用正則表達(dá)式提取數(shù)據(jù) 89
3.1.4 結(jié)構(gòu)化信息提取 91
3.1.5 網(wǎng)頁(yè)的DOM結(jié)構(gòu) 94
3.1.6 使用NEKOHTML提取信息 95
3.1.7 使用JSOUP提取信息 101
3.1.8 網(wǎng)頁(yè)去噪 105
3.1.9 網(wǎng)頁(yè)結(jié)構(gòu)相似度計(jì)算 110
3.1.10 提取標(biāo)題 112
3.1.11 提取日期 113
3.2 從非HTML文件中提取文本 113
3.2.1 提取標(biāo)題的一般方法 114
3.2.2 PDF文件 118
3.2.3 WORD文件 122
3.2.4 RTF文件 123
3.2.5 EXCEL文件 134
3.2.6 POWERPOINT文件 137
3.3 流媒體內(nèi)容提取 137
3.3.1 音頻流內(nèi)容提取 138
3.3.2 視頻流內(nèi)容提取 140
3.4 存儲(chǔ)提取內(nèi)容 142
3.5 本章小結(jié) 143
第4章 中文分詞的原理與實(shí)現(xiàn) 144
4.1 LUCENE中的中文分詞 145
4.1.1 LUCENE切分原理 145
4.1.2 LUCENE中的ANALYZER 146
4.1.3 自己寫(xiě)ANALYZER 148
4.1.4 LIETU中文分詞 150
4.2 查找詞典算法 151
4.2.1 標(biāo)準(zhǔn)TRIE樹(shù) 151
4.2.2 三叉TRIE樹(shù) 154
4.3 中文分詞的原理 159
4.4 中文分詞流程與結(jié)構(gòu) 162
4.5 形成切分詞圖 164
4.6 概率語(yǔ)言模型的分詞方法 170
4.7 N元分詞方法 174
4.8 新詞發(fā)現(xiàn) 178
4.9 未登錄詞識(shí)別 180
4.10 詞性標(biāo)注 181
4.10.1 隱馬爾可夫模型 184
4.10.2 基于轉(zhuǎn)換的錯(cuò)誤學(xué)習(xí)方法 192
4.11 平滑算法 194
4.12 本章小結(jié) 198
第5章 讓搜索引擎理解自然語(yǔ)言 199
5.1 停用詞表 200
5.2 句法分析樹(shù) 201
5.3 相似度計(jì)算 205
5.4 文檔排重 209
5.4.1 語(yǔ)義指紋 210
5.4.2 SIMHASH 213
5.4.3 分布式文檔排重 223
5.5 中文關(guān)鍵詞提取 223
5.5.1 關(guān)鍵詞提取的基本方法 223
5.5.2 HITS算法應(yīng)用于關(guān)鍵詞提取 226
5.5.3 從網(wǎng)頁(yè)中提取關(guān)鍵詞 228
5.6 相關(guān)搜索詞 228
5.6.1 挖掘相關(guān)搜索詞 229
5.6.2 使用多線程計(jì)算相關(guān)搜索詞 231
5.7 信息提取 232
5.8 拼寫(xiě)檢查與建議 237
5.8.1 模糊匹配問(wèn)題 240
5.8.2 英文拼寫(xiě)檢查 242
5.8.3 中文拼寫(xiě)檢查 244
5.9 自動(dòng)摘要 247
5.9.1 自動(dòng)摘要技術(shù) 247
5.9.2 自動(dòng)摘要的設(shè)計(jì) 247
5.9.3 LUCENE中的動(dòng)態(tài)摘要 254
5.10 文本分類 257
5.10.1 特征提取 259
5.10.2 中心向量法 262
5.10.3 樸素貝葉斯 265
5.10.4 支持向量機(jī) 272
5.10.5 規(guī)則方法 279
5.10.6 網(wǎng)頁(yè)分類 282
5.11 拼音轉(zhuǎn)換 283
5.12 概念搜索 284
5.13 多語(yǔ)言搜索 292
5.14 跨語(yǔ)言搜索 293
5.15 情感識(shí)別 295
5.15.1 確定詞語(yǔ)的褒貶傾向 298
5.15.2 實(shí)現(xiàn)情感識(shí)別 300
5.16 本章小結(jié) 301
第6章 LUCENE原理與應(yīng)用 303
6.1 LUCENE深入介紹 304
6.1.1 常用查詢對(duì)象 304
6.1.2 查詢語(yǔ)法與解析 304
6.1.3 查詢?cè)?308
6.1.4 分析文本 309
6.1.5 使用FILTER篩選搜索結(jié)果 316
6.1.6 遍歷索引庫(kù) 317
6.1.7 索引數(shù)值列 318
6.2 LUCENE中的壓縮算法 322
6.2.1 變長(zhǎng)壓縮 322
6.2.2 PFORDELTA 324
6.2.3 前綴壓縮 326
6.2.4 差分編碼 328
6.3 創(chuàng)建和維護(hù)索引庫(kù) 330
6.3.1 創(chuàng)建索引庫(kù) 330
6.3.2 向索引庫(kù)中添加索引文檔 331
6.3.3 刪除索引庫(kù)中的索引文檔 334
6.3.4 更新索引庫(kù)中的索引文檔 334
6.3.5 索引的合并 335
6.3.6 索引文件格式 335
6.4 查找索引庫(kù) 338
6.4.1 查詢過(guò)程 338
6.4.2 常用查詢 342
6.4.3 基本詞查詢 343
6.4.4 模糊匹配 343
6.4.5 布爾查詢 345
6.4.6 短語(yǔ)查詢 347
6.4.7 跨度查詢 349
6.4.8 FIELDSCOREQUERY 353
6.5 讀寫(xiě)并發(fā)控制 356
6.6 檢索模型 356
6.6.1 向量空間模型 357
6.6.2 BM25概率模型 361
6.6.3 統(tǒng)計(jì)語(yǔ)言模型 367
6.7 本章小結(jié) 369
第7章 搜索引擎用戶界面 370
7.1 實(shí)現(xiàn)LUCENE搜索 370
7.2 實(shí)現(xiàn)搜索接口 372
7.2.1 編碼識(shí)別 372
7.2.2 布爾搜索 375
7.2.3 指定范圍搜索 375
7.2.4 搜索結(jié)果排序 376
7.2.5 搜索頁(yè)面的索引緩存與更新 377
7.3 歷史搜索詞記錄 380
7.4 實(shí)現(xiàn)關(guān)鍵詞高亮顯示 381
7.5 實(shí)現(xiàn)分類統(tǒng)計(jì)視圖 383
7.6 實(shí)現(xiàn)AJAX搜索聯(lián)想詞 388
7.6.1 估計(jì)查詢?cè)~的文檔頻率 388
7.6.2 搜索聯(lián)想詞總體結(jié)構(gòu) 389
7.6.3 服務(wù)器端處理 389
7.6.4 瀏覽器端處理 390
7.6.5 服務(wù)器端改進(jìn) 395
7.6.6 拼音提示 398
7.6.7 部署總結(jié) 399
7.7 集成其他功能 399
7.7.1 拼寫(xiě)檢查 399
7.7.2 分類統(tǒng)計(jì) 400
7.7.3 相關(guān)搜索 402
7.7.4 再次查找 405
7.7.5 搜索日志 405
7.8 搜索日志分析 407
7.8.1 日志信息過(guò)濾 407
7.8.2 信息統(tǒng)計(jì) 409
7.8.3 挖掘日志信息 411
7.9 本章小結(jié) 412
第8章 使用SOLR實(shí)現(xiàn)企業(yè)搜索 413
8.1 SOLR簡(jiǎn)介 413
8.2 SOLR基本用法 414
8.2.1 SOLR服務(wù)器端的配置與中文支持 415
8.2.2 把數(shù)據(jù)放進(jìn)SOLR 421
8.2.3 刪除數(shù)據(jù) 423
8.2.4 SOLR客戶端與搜索界面 424
8.2.5 SPRING實(shí)現(xiàn)的搜索界面 425
8.2.6 SOLR索引庫(kù)的查找 436
8.2.7 索引分發(fā) 440
8.2.8 SOLR搜索優(yōu)化 442
8.3 SOLR擴(kuò)展與定制 445
8.3.1 SOLR中字詞混合索引 445
8.3.2 相關(guān)檢索 447
8.3.3 搜索結(jié)果去重 449
8.3.4 定制輸入輸出 453
8.3.5 分布式搜索 457
8.3.6 SOLRJ查詢分析器 458
8.3.7 擴(kuò)展SOLRJ 466
8.3.8 擴(kuò)展SOLR 467
8.3.9 查詢WEB圖 471
8.4 本章小結(jié) 473
第9章 地理信息系統(tǒng)案例分析 474
9.1 新聞提取 474
9.2 POI信息提取 479
9.2.1 提取主體 484
9.2.2 提取地區(qū) 485
9.2.3 指代消解 487
9.3 機(jī)器翻譯 489
9.3.1 詞對(duì)齊 490
9.3.2 翻譯公司名 491
9.3.3 調(diào)整語(yǔ)序 493
9.4 本章小結(jié) 494
第10章 戶外活動(dòng)搜索案例分析 495
10.1 爬蟲(chóng) 495
10.2 信息提取 497
10.3 活動(dòng)分類 500
10.4 搜索 501
10.5 本章小結(jié) 501
參考資料 502

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)