1、需要的jar包
je-analysis-1.5.3.jar javacc工具 ant
2、部署nutch工程到eclipse中,这一步网上有很多的参考。
3、nutch工程部署好后直接修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的 tokenStream方法 即将以下代码
/** Returns a new token stream for text from the named field. */
public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
if ("anchor".equals(fieldName))
analyzer = ANCHOR_ANALYZER;
else
analyzer = CONTENT_ANALYZER;
return analyzer.tokenStream(fieldName, reader);
}
替换成
public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
analyzer= new MMAnalyzer();//需要导入je-analysis包
return analyzer.tokenStream(fieldName, reader);
}
4、在org.apache.nutch.analysis包下类文件NutchAnalysis.jj中
将<SIGRAM: <CJK> >替换为 <SIGRAM: (<CJK>)+ >
然后将这个文件拷贝到一个空目录下,使用javacc进行编译,编译后生成7个java文件,将这7个java文件覆盖org.apache.nutch.analysis包下的文件。此时会有一个异常,只需要在ParseException.java中将Exception改为IOException
5、修改工程目录下的build.xml文件
<lib>
........
.......
..........
<include name="je-analysis-*.jar"/> <!--添加这句-->
</lib>
7、使用ant编译工程文件
输入ant (将在工程目录下的build目录下输出nutch.job文件)
输入ant war (将在工程目录下的build目录下输出nutch.war文件)
输入ant jar (将在工程目录下的build目录下输出nutch.jar文件)
将输出的三个文件拷贝到工程根目录下,覆盖原有的三个文件
8、测试
运行org.apche.nutch.crawl中的Crawl类进行爬虫,当然也可以通过命令的方式进行爬虫
在tomcat下部署第七步生成的nutch.war文件,配置好nutch-site.xml文件后.
<property>
<name>searcher.dir</name>
<value>存放爬虫结果的目录</value>
</property>
在浏览器中输入http://localhost:8080/nutch-1.0 ,回车后查看结果!
分享到:
相关推荐
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
nutch应用,nutch中文分词,nutch中文乱码
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...
关于nutch的搜索引擎的中文分词的研究,包括了编写与实现
给个免费的吧!!大家也都不容易,pdf文件,论文
lucene+nutch搜索引擎开发一书源码第一部分,因为源码太大,所以分两部分。
利用Nutch和IKanalyzer构造中文分词搜索引擎
Lucene nutch 搜索引擎 开发 实例 源码 里面包含了Lucene的使用源码 以及nutch使用的源码 还有spider的使用源码 例子的注释比较详细~适合初学者
外网不能访问,故上传,一方面自己备份,一方面也方便大家不能下载的痛苦,只有nutch的源码,没有依赖包,如果需要依赖包,请自行下载
nutch_src 源码 tar—zip格式
用于Nutch的中文分词,效果向单簧管得得好,强烈建议支持这种格式的数据,这是一个里程碑
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。包含nutch-1.5.1的源码
lucene+nutch搜索引擎开发源码第二部分
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
基于Nutch的中文分词插件实现,张文龙,刘一伟,中文分词是中文垂直搜索引擎中的一个关键技术,分词的好坏直接影响提取文本的精确度。Nutch是一个开源的Web搜索引擎,它为英文用户�
lucene+nutch搜索引擎光盘源码(1-8章),一次上传不了那么多所以分卷了。
nutch1.6源码,直接从官网也可以下
Lucene+nuctch一书的全部源码 测试源码 和几个简单的项目 (Lucene+ Nuctch a book all the source code and test a few simple items)