如何使用lucene进行词形还原和消除空的法语单词

时间:2017-03-25 22:58:40

标签: java indexing lucene lemmatization

我正在寻找lemmatizate并用java语言中的lucene用法语写的文件中的空话来消除我在互联网上看到但我没有找到好的教师。

2 个答案:

答案 0 :(得分:0)

“空话”的用语是stop words

Lucene提供FrenchAnalyzer类,其中包含法语的默认停用词列表。

只需将该类用作分析器。

答案 1 :(得分:0)

这很简单,你所需要的只是像这样的FrenchAnalyzer:

IndexWriterConfig conf= new IndexWriterConfig (Version.LUCENE_45,new FrenchAnalyzer(Version.LUCENE_45,FrenchAnalyzer.getDefaultStopSet()));

对于我们使用的空单词:FrenchAnalyzer.getDefaultStopSet()就像我在前面的代码中所做的那样,并且对于它已经集成在这个分析器中的词形还原,你可以注意到当你寻找重要的单词时(由tf idf)。