注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)C/C++及其相關(guān)使用C#開(kāi)發(fā)搜索引擎

使用C#開(kāi)發(fā)搜索引擎

使用C#開(kāi)發(fā)搜索引擎

定 價(jià):¥49.00

作 者: 羅剛 編著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: VC++

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302270706 出版時(shí)間: 2012-02-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 346 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  從c#基礎(chǔ)開(kāi)始,逐漸深入,是學(xué)習(xí)搜索引擎開(kāi)發(fā)的首選。應(yīng)眾多公司的實(shí)際需求,《使用c#開(kāi)發(fā)搜索引擎》介紹如何以c#作為工具開(kāi)發(fā)搜索引擎。全書(shū)以完成一個(gè)網(wǎng)站搜索\\垂直搜索作為目標(biāo),從網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)開(kāi)始,然后到中文分詞、文本排重等文本挖掘技術(shù)和搜索結(jié)果展現(xiàn)。本書(shū)是市面上介紹業(yè)界熱門(mén)的lucene.net、使用webbrowser做爬蟲(chóng)以及結(jié)合solr開(kāi)發(fā)asp.net搜索的第一書(shū)?!妒褂胏#開(kāi)發(fā)搜索引擎》適合專(zhuān)業(yè)軟件開(kāi)發(fā)人員,也適合于希望學(xué)習(xí)搜索引擎工作原理的讀者學(xué)習(xí)使用。本書(shū)對(duì)于在校學(xué)生學(xué)習(xí)復(fù)雜數(shù)據(jù)結(jié)構(gòu)和應(yīng)用動(dòng)態(tài)規(guī)劃等常用算法也有參考價(jià)值。

作者簡(jiǎn)介

  羅剛,獵兔搜索創(chuàng)始人。創(chuàng)建包括旅游搜索和輿情監(jiān)測(cè)在內(nèi)的多個(gè)技術(shù)開(kāi)發(fā)團(tuán)隊(duì)。有多年軟件培訓(xùn)經(jīng)驗(yàn),相關(guān)賞已經(jīng)在京東商城、UCWeb、MadeInChina等多家公司從事技術(shù)開(kāi)發(fā)。出版過(guò)的相關(guān)書(shū)籍包括《自己動(dòng)手寫(xiě)搜索引擎》、《自己動(dòng)手寫(xiě)網(wǎng)編爬蟲(chóng)》、《解密搜索引擎技術(shù)實(shí)踐》以及視頻教程《Lucene構(gòu)建網(wǎng)站搜索系統(tǒng)》。愿意能官能民同行一起為發(fā)展相關(guān)產(chǎn)業(yè)盡力。

圖書(shū)目錄

第1章 使用c#開(kāi)發(fā)搜索引擎快速入門(mén)
1.1 各種搜索引擎
1.1.1 通用搜索
1.1.2 垂直搜索
1.1.3 站內(nèi)搜索
1.2 搜索引擎整體結(jié)構(gòu)
1.3 搜索引擎基本技術(shù)
1.3.1 網(wǎng)絡(luò)爬蟲(chóng)
1.3.2 文本挖掘
1.3.3 全文索引
1.3.4 搜索語(yǔ)法介紹
1.3.5 搜索用戶界面
1.4 c#開(kāi)發(fā)快速入門(mén)
1.4.1 準(zhǔn)備開(kāi)發(fā)環(huán)境
1.4.2 基本語(yǔ)法
1.4.3 多維數(shù)組
1.4.4 位運(yùn)算
1.4.5 枚舉類(lèi)型
1.4.6 面向?qū)ο?br />1.4.7 集合類(lèi)
1.4.8 泛型
1.4.9 委托和事件
1.4.10 類(lèi)庫(kù)
1.5 本章小結(jié)
1.6 術(shù)語(yǔ)表
第2章 使用c#開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)
2.1 網(wǎng)絡(luò)爬蟲(chóng)抓取原理
2.2 爬蟲(chóng)架構(gòu)
2.2.1 基本架構(gòu)
2.2.2 分布式爬蟲(chóng)架構(gòu)
2.2.3 垂直爬蟲(chóng)架構(gòu)
2.3 下載網(wǎng)頁(yè)
2.3.1 http協(xié)議
2.3.2 下載靜態(tài)網(wǎng)頁(yè)
2.3.3 下載動(dòng)態(tài)網(wǎng)頁(yè)
2.4 網(wǎng)絡(luò)爬蟲(chóng)遍歷與實(shí)現(xiàn)
2.5 網(wǎng)站地圖
2.6 連接池
2.7 url地址查新
2.7.1 嵌入式數(shù)據(jù)庫(kù)
2.7.2 布隆過(guò)濾器
2.8 抓取rss
2.9 解析相對(duì)地址
2.10 網(wǎng)頁(yè)更新
2.11 信息過(guò)濾
2.12 垂直行業(yè)抓取
2.13 抓取限制應(yīng)對(duì)方法
2.13.1 更換ip地址
2.13.2 抓取需要登錄的網(wǎng)頁(yè)
2.13.3 抓取asp.net網(wǎng)頁(yè)
2.14 保存信息
2.14.1 存入數(shù)據(jù)庫(kù)
2.14.2 存成圖像
2.15 日志
2.16 本章小結(jié)
2.17 術(shù)語(yǔ)表
第3章 索引各種格式文檔
3.1 從html文件中提取信息
3.1.1 識(shí)別網(wǎng)頁(yè)的編碼
3.1.2 正則表達(dá)式
3.1.3 html agility pack介紹
3.1.4 網(wǎng)頁(yè)正文提取
3.1.5 結(jié)構(gòu)化信息提取
3.1.6 查看網(wǎng)頁(yè)的dom結(jié)構(gòu)
3.1.7 網(wǎng)頁(yè)結(jié)構(gòu)相似度計(jì)算
3.2 從非html文件中提取文本
3.2.1 text文件
3.2.2 pdf文件
3.2.3 office文件
3.2.4 rtf文件
3.3 本章小結(jié)
3.4 術(shù)語(yǔ)表
第4章 自然語(yǔ)言處理
4.1 統(tǒng)計(jì)機(jī)器學(xué)習(xí)
4.2 文檔排重
4.3 中文關(guān)鍵詞提取
4.3.1 關(guān)鍵詞提取的基本方法
4.3.2 從網(wǎng)頁(yè)中提取關(guān)鍵詞
4.4 相關(guān)搜索
4.5 拼寫(xiě)檢查
4.5.1 拼寫(xiě)檢查的概率模型
4.5.2 模糊匹配問(wèn)題
4.5.3 英文拼寫(xiě)檢查
4.5.4 中文拼寫(xiě)檢查
4.6 文本摘要
4.6.1 文本摘要的設(shè)計(jì)
4.6.2 實(shí)現(xiàn)文本摘要技術(shù)
4.6.3 lucene.net中的動(dòng)態(tài)摘要
4.7 文本分類(lèi)
4.7.1 自動(dòng)分類(lèi)的接口定義
4.7.2 自動(dòng)分類(lèi)的實(shí)現(xiàn)
4.8 自動(dòng)聚類(lèi)
4.8.1 文檔相似度
4.8.2 k均值聚類(lèi)方法
4.8.3 k均值實(shí)現(xiàn)
4.9 拼音轉(zhuǎn)換
4.10 句法分析樹(shù)
4.11 信息提取
4.12 本章小結(jié)
4.13 術(shù)語(yǔ)表
第5章 用c#實(shí)現(xiàn)中文分詞
5.1 漢語(yǔ)中的詞
5.2 文本切分的基本方法
5.3 有限狀態(tài)機(jī)
5.4 查找詞典算法
5.4.1 標(biāo)準(zhǔn)trie樹(shù)
5.4.2 三叉trie樹(shù)
5.5 中文分詞的原理
5.6 中文分詞流程與結(jié)構(gòu)
5.7 切分詞圖
5.7.1 保存切分詞圖
5.7.2 生成全切分詞圖
5.8 概率語(yǔ)言模型的分詞方法
5.8.1 一元模型
5.8.2 n元模型
5.9 最大熵
5.10 未登錄詞識(shí)別
5.11 詞性標(biāo)注
5.12 地名切分
5.12.1 地址類(lèi)性標(biāo)注
5.12.2 未登錄詞識(shí)別
5.13 本章小結(jié)
5.14 術(shù)語(yǔ)表
第6章 lucene.net原理與應(yīng)用
6.1 lucene.net快速入門(mén)
6.1.1 索引文檔
6.1.2 搜索文檔
6.1.3 lucene.net結(jié)構(gòu)
6.2 lucene.net深入介紹
6.2.1 索引原理
6.2.2 分析文本
6.2.3 遍歷索引庫(kù)
6.2.4 檢索模型
6.2.5 收集最相關(guān)的文檔
6.3 索引中的壓縮算法
6.3.1 變長(zhǎng)壓縮
6.3.2 差分編碼
6.4 創(chuàng)建和維護(hù)索引庫(kù)
6.4.1 設(shè)計(jì)一個(gè)簡(jiǎn)單的索引庫(kù)
6.4.2 創(chuàng)建索引庫(kù)
6.4.3 向索引庫(kù)中添加索引文檔
6.4.4 刪除索引庫(kù)中的索引文檔
6.4.5 更新索引庫(kù)中的索引文檔
6.4.6 索引的優(yōu)化與合并
6.5 查找索引庫(kù)
6.5.1 布爾查詢(xún)
6.5.2 同時(shí)查詢(xún)多列
6.5.3 跨度查詢(xún)
6.5.4 通配符查詢(xún)
6.5.5 過(guò)濾
6.5.6 按指定列排序
6.5.7 查詢(xún)大容量索引
6.5.8 函數(shù)查詢(xún)
6.5.9 定制相似性
6.5.1 0評(píng)價(jià)搜索結(jié)果
6.6 中文信息檢索
6.6.1 lucene.net中的中文處理
6.6.2 lietu中文分詞的使用
6.6.3 定制tokenizer
6.6.4 解析查詢(xún)串
6.6.5 實(shí)現(xiàn)字詞混合索引
6.7 抓取數(shù)據(jù)庫(kù)中的內(nèi)容
6.7.1 讀取數(shù)據(jù)
6.7.2 數(shù)據(jù)同步
6.8 概念搜索
6.9 本章小結(jié)
6.10 術(shù)語(yǔ)表
第7章 實(shí)現(xiàn)搜索用戶界面
7.1 搜索頁(yè)面設(shè)計(jì)
7.1.1 用于顯示搜索結(jié)果的asp.net
7.1.2 搜索結(jié)果分頁(yè)
7.1.3 設(shè)計(jì)一個(gè)簡(jiǎn)單的搜索頁(yè)面
7.2 實(shí)現(xiàn)搜索接口
7.2.1 lucene.net搜索接口
7.2.2 指定范圍搜索
7.2.3 搜索頁(yè)面的索引緩存與更新
7.3 實(shí)現(xiàn)關(guān)鍵詞高亮顯示
7.4 實(shí)現(xiàn)分類(lèi)統(tǒng)計(jì)視圖
7.4.1 搜索結(jié)果分類(lèi)統(tǒng)計(jì)與導(dǎo)航
7.4.2 層次樹(shù)
7.5 相關(guān)搜索詞
7.6 實(shí)現(xiàn)ajax自動(dòng)完成
7.6.1 總體結(jié)構(gòu)
7.6.2 服務(wù)器端處理
7.6.3 瀏覽器端處理
7.7 集成其他功能
7.7.1 拼寫(xiě)檢查
7.7.2 再次查找
7.7.3 黑名單
7.7.4 搜索日志
7.8 本章小結(jié)
第8章 使用solr開(kāi)發(fā)網(wǎng)站搜索
8.1 搜索服務(wù)器端
8.8.1 solr結(jié)構(gòu)
8.1.2 啟動(dòng)solr服務(wù)器
8.1.3 配置支持中文的solr
8.1.4 索引數(shù)據(jù)
8.1.5 查詢(xún)功能
8.1.6 高亮
8.2 solr的.net客戶端
8.2.1 使用solrnet
8.2.2 實(shí)現(xiàn)多分類(lèi)
8.2.3 分類(lèi)統(tǒng)計(jì)
8.3 查詢(xún)語(yǔ)法
8.3.1 對(duì)空格的支持
8.3.2 日期加權(quán)
8.4 索引分布
8.5 本章小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)