1、需要的工具:IKAnalyzer jar包(将其命名为analysis-zh.jar) javacc工具 ant
2、部署nutch工程到eclipse中。
3、定义自己的分词类,代码如下
package com.gpower.nutch.plugin;
import java.io.Reader;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.nutch.analysis.NutchAnalyzer;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class MyAnalyzer extends NutchAnalyzer{
private final static Analyzer ANALYZER = new IKAnalyzer();
@SuppressWarnings("unused")
private static final Log LOG = LogFactory.getLog(MyAnalyzer.class);
@Override
public TokenStream tokenStream(String fieldName, Reader reader) {
return ANALYZER.tokenStream(fieldName, reader);
}
}
4、将此文件在eclipse中打包成MyAnalyzer.jar文件
5、为插件编写plugin.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<plugin id="MyAnalyzer-zh" name="Analyzer_self" version="1.0.0" provider-name="nutch.org">
<runtime>
<library name="MyAnalyzer-zh.jar"><export name="*"/></library>
</runtime>
<requires>
<import plugin="nutch-extensionpoints"/>
</requires>
<extension id="com.gpower.nutch.plugin.MyAnalyzer"
name="Self Nutch Plugin Analyzer"
point="org.apache.nutch.analysis.NutchAnalyzer">
<implementation id="MyAnalyzer-zh"
class="com.gpower.nutch.plugin.MyAnalyzer">
<parameter name="lang" value="zh"/>
</implementation>
</extension>
</plugin>
6、运行NGramProfile类,生成zh.ngp文件,将生成的文件拷贝到src/plugin/languageidentfier/src/java目录下的org.apache.nutch.anaysis.lang包下面
7、修改NutchAnalysis文件,编译此文件,覆盖(详见本博客中的另一篇关于nutch中文分词的文章)
8、创建目录Myanalyzer,在此目录下放入(plugin.xml,MyAnalyzer.jar,analysis-zh.jar),然后将此目录拷贝到nutch-1.0\plugins\目录下。
9、ant编译工程(详见本博客中的另一篇关于nutch中文分词的文章)
10、爬虫、部署、测试(详见本博客中的另一篇关于nutch中文分词的文章)
分享到:
相关推荐
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
关于nutch的搜索引擎的中文分词的研究,包括了编写与实现
基于Nutch的中文分词插件实现,张文龙,刘一伟,中文分词是中文垂直搜索引擎中的一个关键技术,分词的好坏直接影响提取文本的精确度。Nutch是一个开源的Web搜索引擎,它为英文用户�
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene...
jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,循环线程的实现方式,如有不明白的地方,可联系我qq511134962,msn:myhongkongzhen...
jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,循环线程的实现方式,如有不明白的地方,可联系我qq511134962,msn:myhongkongzhen...
jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,循环线程的实现方式,如有不明白的地方,可联系我qq511134962,msn:myhongkongzhen...
jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,循环线程的实现方式,如有不明白的地方,可联系我qq511134962,msn:myhongkongzhen...
jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,循环线程的实现方式,如有不明白的地方,可联系我qq511134962,msn:myhongkongzhen...