使用C#开发搜索引擎

出版时间:2012-2  出版社:清华大学出版社  作者:罗刚  页数:346  
Tag标签:无  

内容概要

  从c#基础开始,逐渐深入,是学习搜索引擎开发的首选。应众多公司的实际需求,《使用c#开发搜索引擎》介绍如何以c#作为工具开发搜索引擎。全书以完成一个网站搜索\垂直搜索作为目标,从网络爬虫抓取数据开始,然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。本书是市面上介绍业界热门的lucene.net、使用webbrowser做爬虫以及结合solr开发asp.net搜索的第一书。
  《使用c#开发搜索引擎》适合专业软件开发人员,也适合于希望学习搜索引擎工作原理的读者学习使用。本书对于在校学生学习复杂数据结构和应用动态规划等常用算法也有参考价值。

作者简介

  作者: 罗刚
  罗刚猎兔搜索(http://www.lietu.com)创始人,当前猎兔搜索在北京和上海均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》,获得广泛好评。

书籍目录

第1章 使用c#开发搜索引擎快速入门
1.1 各种搜索引擎
1.1.1 通用搜索
1.1.2 垂直搜索
1.1.3 站内搜索
1.2 搜索引擎整体结构
1.3 搜索引擎基本技术
1.3.1 网络爬虫
1.3.2 文本挖掘
1.3.3 全文索引
1.3.4 搜索语法介绍
1.3.5 搜索用户界面
1.4 c#开发快速入门
1.4.1 准备开发环境
1.4.2 基本语法
1.4.3 多维数组
1.4.4 位运算
1.4.5 枚举类型
1.4.6 面向对象
1.4.7 集合类
1.4.8 泛型
1.4.9 委托和事件
1.4.10 类库
1.5 本章小结
1.6 术语表
第2章 使用c#开发网络爬虫
2.1 网络爬虫抓取原理
2.2 爬虫架构
2.2.1 基本架构
2.2.2 分布式爬虫架构
2.2.3 垂直爬虫架构
2.3 下载网页
2.3.1 http协议
2.3.2 下载静态网页
2.3.3 下载动态网页
2.4 网络爬虫遍历与实现
2.5 网站地图
2.6 连接池
2.7 url地址查新
2.7.1 嵌入式数据库
2.7.2 布隆过滤器
2.8 抓取rss
2.9 解析相对地址
2.10 网页更新
2.11 信息过滤
2.12 垂直行业抓取
2.13 抓取限制应对方法
2.13.1 更换ip地址
2.13.2 抓取需要登录的网页
2.13.3 抓取asp.net网页
2.14 保存信息
2.14.1 存入数据库
2.14.2 存成图像
2.15 日志
2.16 本章小结
2.17 术语表
第3章 索引各种格式文档
3.1 从html文件中提取信息
3.1.1 识别网页的编码
3.1.2 正则表达式
3.1.3 html agility pack介绍
3.1.4 网页正文提取
3.1.5 结构化信息提取
3.1.6 查看网页的dom结构
3.1.7 网页结构相似度计算
3.2 从非html文件中提取文本
3.2.1 text文件
3.2.2 pdf文件
3.2.3 office文件
3.2.4 rtf文件
3.3 本章小结
3.4 术语表
第4章 自然语言处理
4.1 统计机器学习
4.2 文档排重
4.3 中文关键词提取
4.3.1 关键词提取的基本方法
4.3.2 从网页中提取关键词
4.4 相关搜索
4.5 拼写检查
4.5.1 拼写检查的概率模型
4.5.2 模糊匹配问题
4.5.3 英文拼写检查
4.5.4 中文拼写检查
4.6 文本摘要
4.6.1 文本摘要的设计
4.6.2 实现文本摘要技术
4.6.3 lucene.net中的动态摘要
4.7 文本分类
4.7.1 自动分类的接口定义
4.7.2 自动分类的实现
4.8 自动聚类
4.8.1 文档相似度
4.8.2 k均值聚类方法
4.8.3 k均值实现
4.9 拼音转换
4.10 句法分析树
4.11 信息提取
4.12 本章小结
4.13 术语表
第5章 用c#实现中文分词
5.1 汉语中的词
5.2 文本切分的基本方法
5.3 有限状态机
5.4 查找词典算法
5.4.1 标准trie树
5.4.2 三叉trie树
5.5 中文分词的原理
5.6 中文分词流程与结构
5.7 切分词图
5.7.1 保存切分词图
5.7.2 生成全切分词图
5.8 概率语言模型的分词方法
5.8.1 一元模型
5.8.2 n元模型
5.9 最大熵
5.10 未登录词识别
5.11 词性标注
5.12 地名切分
5.12.1 地址类性标注
5.12.2 未登录词识别
5.13 本章小结
5.14 术语表
第6章 lucene.net原理与应用
6.1 lucene.net快速入门
6.1.1 索引文档
6.1.2 搜索文档
6.1.3 lucene.net结构
6.2 lucene.net深入介绍
6.2.1 索引原理
6.2.2 分析文本
6.2.3 遍历索引库
6.2.4 检索模型
6.2.5 收集最相关的文档
6.3 索引中的压缩算法
6.3.1 变长压缩
6.3.2 差分编码
6.4 创建和维护索引库
6.4.1 设计一个简单的索引库
6.4.2 创建索引库
6.4.3 向索引库中添加索引文档
6.4.4 删除索引库中的索引文档
6.4.5 更新索引库中的索引文档
6.4.6 索引的优化与合并
6.5 查找索引库
6.5.1 布尔查询
6.5.2 同时查询多列
6.5.3 跨度查询
6.5.4 通配符查询
6.5.5 过滤
6.5.6 按指定列排序
6.5.7 查询大容量索引
6.5.8 函数查询
6.5.9 定制相似性
6.5.10 评价搜索结果
6.6 中文信息检索
6.6.1 lucene.net中的中文处理
6.6.2 lietu中文分词的使用
6.6.3 定制tokenizer
6.6.4 解析查询串
6.6.5 实现字词混合索引
6.7 抓取数据库中的内容
6.7.1 读取数据
6.7.2 数据同步
6.8 概念搜索
6.9 本章小结
6.10 术语表
第7章 实现搜索用户界面
7.1 搜索页面设计
7.1.1 用于显示搜索结果的asp.net
7.1.2 搜索结果分页
7.1.3 设计一个简单的搜索页面
7.2 实现搜索接口
7.2.1 lucene.net搜索接口
7.2.2 指定范围搜索
7.2.3 搜索页面的索引缓存与更新
7.3 实现关键词高亮显示
7.4 实现分类统计视图
7.4.1 搜索结果分类统计与导航
7.4.2 层次树
7.5 相关搜索词
7.6 实现ajax自动完成
7.6.1 总体结构
7.6.2 服务器端处理
7.6.3 浏览器端处理
7.7 集成其他功能
7.7.1 拼写检查
7.7.2 再次查找
7.7.3 黑名单
7.7.4 搜索日志
7.8 本章小结
第8章 使用solr开发网站搜索
8.1 搜索服务器端
8.8.1 solr结构
8.1.2 启动solr服务器
8.1.3 配置支持中文的solr
8.1.4 索引数据
8.1.5 查询功能
8.1.6 高亮
8.2 solr的.net客户端
8.2.1 使用solrnet
8.2.2 实现多分类
8.2.3 分类统计
8.3 查询语法
8.3.1 对空格的支持
8.3.2 日期加权
8.4 索引分布
8.5 本章小结

图书封面

图书标签Tags

评论、评分、阅读与下载


    使用C#开发搜索引擎 PDF格式下载


用户评论 (总计38条)

 
 

  •   这本书很好,是基于Lucene****的,但是Lucene****这个移植的产品用起来有点别扭,而且这个开源项目目前已经冻结了.
    当然这本书是非常优秀的,如果你只是想解决站内搜索可以研究Hubble****.如果想从C#角度了解搜索引擎,完全可以看这本书
  •   方便他不用对着电脑看,虽然猎兔搜索培训提供更新的版本。
  •   用C#开发搜索引擎,配合Lucene**** 业界的第一本书啊!太需要了!希望有更深入的相关书籍
  •   平时都是用搜索引擎,买这本书大概领略一下如何用C#开发
  •   这本书非常不错,让我从另一个方面理解了搜索引擎技术
  •   对搜索引擎的原理和理论讲的很详细,很好的一本书
  •   内容很丰富,适合工作上需要的内容
  •   书不错,价格挺实惠,凡是发货速度有些慢.
  •   内容比较浅,但国内这书很少,尤其是****,不错了,总体比较满意
  •   这本书、客服、终端递送员的服务都很好,但中间物流单位还有提升空间。
  •   一天就到了,速度相当的快!
  •   不错有收获不错有收获不错有收获
  •   很少看见这类书,并且****的
  •   今天刚到,随便翻了几页,内容还行吧,讲的不算详细,但毕竟是国内的第一本结合Solr开发ASP****的书嘛。。
    不过猎兔这个网站的内容倒是频频出现,有打广告嫌疑 呵呵
  •   对于C#开发搜索引擎的基本技术都有涉及,但是不够细致,刚开始有些迷茫,另外附赠光盘的示例在书中没有什么描述。
  •   专门介绍搜索的书 内容很专业
  •   用C#开发这是第一本!,谢谢作者!唯一不好的就是当当网的快递!送过来的时候外包装一半已经没有了,我在想,幸亏买的是书,外包装掉了没人要,要是买的其他贵重品,不知道东西还在不在?
  •   c#作为一门新起的功能强大语言,是很有必要学习的,要学习哪必须选一本好的参考书,此书不妨看看,帮助还是有的!
  •   书看着还行!正在看呢!感觉要有一定的基础才好,尤其是数学上的!
  •   在专业领域有很好的帮助和指导
  •   书的内容还可以,值得一看
  •   还没怎么看呢,基本满意吧……
  •   例子感觉和自己的需要相同,挺不错的。
  •   还凑合吧。作为一本讲搜索引擎的书,1)浪费了一章来C#基本语法,完全没有必要。
    2)里面有些算法的部分不知道从哪里摘抄来的,占用了大量的篇幅。
    3)有些代码明显是从现成的案例里面摘抄来的,但是单独这样摘抄出来让人看不明白,比如有些变量,函数明显是外部的,但是只给你一部分,你根本看不明白。
    4)这本书的亮点应该是怎么开发一个猎兔这样的垂直搜索引擎,估计作者怕暴露太多的核心技术,讲的过于粗泛!
  •   刚买还没怎么看。
  •   内容太浅了,貌似连代码都没有,像是晚上到处凑的。。。,起码也给个能跑起来的C#整体代码
  •   感觉讲解得比较跳跃
  •   买过来就把封面给撕掉了。 前言也撕掉了。书一次没看,封面就没了。 因为前沿里面的 话,讲得很有偏见,整本书,叙述的方式,就要打问号。
  •   此书没有什么新奇的 重要问题都没有给出解决办法 一笔带过
    例如 查询大容量索引这节 只用了个 ParallelMultiSearcher 这个类来解决(千万级以上的数据量 2G 以上的索引 不是这个能解决的)
    光盘中的例子 只是给出了 lucene**** 的 源代码 结合lucene****的 demo 用的是很早的版本2.4的版本吧

    作者不要误人子弟了 谢谢
  •   书的质量就不评价了,写点后头的事,书上附录了一个可以讨论的群,今天刚加了群 才聊几句就被踢掉了,我就只抓了个图而已,那个群正在忽悠群里人的花钱参加所谓的培训。再加被拒。
    写书的人品咋那么低呢?我也是花钱买书的读者啊,给我这个待遇,人品真差。花钱培训一个月你可以上月球,培训半年可以上火星,操!这个书上有多少真材实料就很难说了。
  •   光盘与书的内容不符合
  •   书中刚好有我需要的东西!
  •   C#适合
  •   内容完整,条理性强
  •   内容太广泛了。
  •   还没来得及看。不知道好不好。
  •     用C#开发搜索引擎,配合Lucene.NET 业界的第一本书啊!太需要了!希望有更深入的相关书籍
      
      用C#开发搜索引擎,配合Lucene.NET 业界的第一本书啊!太需要了!希望有更深入的相关书籍
  •     互动出版网:
      
      http://product.china-pub.com/59225
      
      或者当当网
      
      http://product.dangdang.com/product.aspx?product_id=22602706
 

250万本中文图书简介、评论、评分,PDF格式免费下载。 第一图书网 手机版

京ICP备13047387号-7