Snowball Stemmer用法

时间:2013-07-30 19:56:20

标签: java stemming snowball

我想在这里使用词干分析器来合并字数 http://snowball.tartarus.org/download.html
该页面有一个下载链接,但我不知道如何将文件集成到我的eclipse项目中 它不仅仅是一个放入我的lib文件夹的jar,它是一个文件系统。 有没有人知道解释这个的一些文件,因为我在网站上没有看到任何文件 (如,我要导入什么,如何调用它等等。)

1 个答案:

答案 0 :(得分:15)

构建jar文件并将其添加到Build Path。

详细说明:

  • 使用此处的代码下载tgz http://snowball.tartarus.org/download.php
  • 解压缩。
  • 转到libstemmer_java目录并阅读README。
  • 按照说明编译(使用javac)。
  • 您可能必须更正或删除java / org / tartarus / snowball / ext / frenchStemmer.java,因为它有错误且无法编译。
  • 创建jar文件:然后转到libstemmer_java / java目录 jar cvf libstemmer.jar *
  • 将libstemmer.jar添加到Build Path(在Eclipse中:Project-Properties-Java Build Path-Libreries选项卡)。

然后你可以使用词干分析器做类似的事情:

import org.tartarus.snowball.ext.spanishStemmer;
...
spanishStemmer stemmer = new spanishStemmer();
stemmer.setCurrent("torero");
if (stemmer.stem()){
    System.out.println(stemmer.getCurrent());
}