《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》,全套视频教程学习资料通过百度云网盘下载
资源详情
《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》课程讲师:小叶子xa0课程分类:JA危a适合人群:初级课时数量:69课时用到技术:Hibernate、Struts、Spring、jQuery、Lucene、Solr、Heritrix涉及项目:百度文库搜索引擎xa0xa0xa0垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。xa0xa0xa0xa0整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene和solr进行索引和搜索。xa0xa0xa0xa0xa0推荐你看一下小叶子老师的这套视频教程《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》,一共69讲,整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene和solr进行索引和搜索。xa0xa0xa0xa0整个项目的构建全部采用最新技术,包括但不限于以下技术:struts2.3.16+spring4.0.1+hibernate4.3.1+jquery-easyui1.3.5+lucene4.6.0+solr4.6.0+Heritrix1.14并对其做了二次封装。为了增进学员的理解,课程大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。一、理论部分:xa0xa0xa0xa0xa02.1、搭建heritrixxa0xa0xa0xa0xa0xa01.什么是网络爬虫xa0xa0xa0xa0xa0xa02.网络爬虫能做什么xa0xa0xa0xa0xa0xa03.Heritrix原理xa0xa0xa0xa0xa0xa04.Heritrix搭建xa0xa0xa0xa0xa02.2、如何进行主题抓取xa0xa0xa0xa0xa0xa01.什么是主题抓取xa0xa0xa0xa0xa0xa02.主题抓取的意义xa0xa0xa0xa0xa0xa03.主题抓取的策略xa0xa0xa0xa0xa0xa04.如何用heritrix进行主题抓取xa0xa0xa0xa0xa02.3、heritrix优化xa0xa0xa0xa0xa0xa01.ELFHash算法xa0xa0xa0xa0xa0xa02.关于robot.txtxa0xa0xa0xa0xa0xa03.将heritrix打包成工具xa0xa0xa0xa0xa02.4、解析html页面xa0xa0xa0xa0xa0xa01.jA危a正则表达式xa0xa0xa0xa0xa0xa02.基于模板获取网页内容xa0xa0xa0xa0xa0xa03.利用htmlparser解析htmlxa0xa0xa0xa0xa02.5、中文分词介绍xa0xa0xa0xa0xa0xa01.Lucene自带的分词xa0xa0xa0xa0xa0xa04.利用机器学习的算法识别中文文章中的领域词xa0xa0xa0xa0xa02.6、网页去重xa0xa0xa0xa0xa0xa01.网页去重的意义xa0xa0xa0xa0xa0xa02.网页去重的主要方法xa0xa0xa0xa0xa0xa03.什么是tf*idfxa0xa0xa0xa0xa0xa04.基于指纹算法的网页去重xa0xa0xa0xa0xa02.7、Lucene4.6快速索引与搜索xa0xa0xa0xa0xa0xa01.如何用lucene创建索引xa0xa0xa0xa0xa0xa02.如何用lucene搜索结果xa0xa0xa0xa0xa0xa03.Lucene中intfield怎么搜索xa0xa0xa0xa0xa0xa04.Lucene的结果高亮显示xa0xa0xa0xa0xa02.8、Lucene4.6索引的相关操作xa0xa0xa0xa0xa0xa01.创建索引xa0xa0xa0xa0xa0xa02.修改索引xa0xa0xa0xa0xa0xa03.删除索引xa0xa0xa0xa0xa0xa04.索引优化xa0xa0xa0xa0xa02.9、Lucene4.6的query、及queryparserxa0xa0xa0xa0xa02.10、Lucene的Filter及自定义排序xa0xa0xa0xa0xa0xa02.Lucene自带排序及指定权重xa0xa0xa0xa0xa0xa03.Lucene自定义排序xa0xa0xa0xa0xa02.11、Solr快速索引与搜索xa0xa0xa0xa0xa0xa01.什么是solrxa0xa0xa0xa0xa0xa02.为什么工程中要使用solrxa0xa0xa0xa0xa0xa03.Solr的原理xa0xa0xa0xa0xa0xa04.如何在tomcat中运行solrxa0xa0xa0xa0xa0xa05.如何利用solr进行索引与搜索xa0xa0xa0xa0xa02.12、Solr的查询及Filterxa0xa0xa0xa0xa0xa01.solr的各种查询xa0xa0xa0xa0xa0xa02.solr的Filterxa0xa0xa0xa0xa0xa03.solr的排序xa0xa0xa0xa0xa0xa04.solr的高亮xa0xa0xa0xa0xa02.13、Solr的facet介绍xa0xa0xa0xa0xa0xa01.solr的某个域统计xa0xa0xa0xa0xa0xa02.solr的范围统计xa0xa0xa0xa0xa02.14、Solrcloud集群搭建xa0xa0xa0xa0xa0xa01.zookeeper简介xa0xa0xa0xa0xa0xa02.solrcloud集群搭建xa0xa0xa0xa0xa02.15、搜索服务的工具封装xa0xa0xa0xa0xa0xa01.工厂模式xa0xa0xa0xa0xa0xa02.封装搜索服务_lucenexa0xa0xa0xa0xa0xa03.封装搜索服务_solrxa0xa0xa0xa0xa0xa04.将lucene与solr封装成可以配置的工具,可以支持任何业务系统xa0xa0xa0二、项目部分:xa0xa0xa0xa0xa02.16、项目实战xa0xa0xa0xa0xa0xa01.项目需求分析及框架选择xa0xa0xa0xa0xa0xa02.Struts2.3.16介绍xa0xa0xa0xa0xa0xa03.Struts2.3.16整合Spring4.0.1xa0xa0xa0xa0xa0xa04.Spring4.0.1整合hibernate4.3.1xa0xa0xa0xa0xa0xa05.利用jquery-easyui1.3.5做后台管理页面xa0xa0xa0xa0xa0xa06.Heritrix在工程中的运用xa0xa0xa0xa0xa0xa07.封装好的搜索框架在工程中的运用xa0xa0xa0xa0xa0xa08.Flexpaper模仿百度文库xa0xa0xa0xa0xa0xa09.文件上传xa0xa0xa0xa0xa0xa010.相关代码编写xa0xa0xa0xa0xa0xa011.搜索结果优化xa0xa0xa0xa0xa0xa012.项目总结xa0
**** Hidden Message *****
页:
[1]