如何使用Wordnet同义词与Hibernate搜索?

时间:2018-03-22 17:55:13

标签: java hibernate solr lucene hibernate-search

我一直试图弄清楚如何使用WordNet同义词和我正在开发的使用Hibernate Search 5.6.1的搜索功能。起初,我考虑过使用Hibernate Search注释:

@TokenFilterDef(factory = SynonymFilterFactory.class, params = {@Parameter(name = "ignoreCase", value = "true"),
  @Parameter(name = "expand", value = "true"),@Parameter(name = "synonyms", value = "synonymsfile") })

但是,这需要填充同义词的实际文件。从WordNet我只能得到“.pl”文件。所以我尝试手动创建一个可以从“.pl”文件中读取的SynonymAnalyzer类:

public class SynonymAnalyzer extends Analyzer {

@Override
protected TokenStreamComponents createComponents(String fieldName) {
  final Tokenizer source = new StandardTokenizer();
  TokenStream result = new StandardFilter(source);
  result = new LowerCaseFilter(result);

  SynonymMap wordnetSynonyms = null;

  try {
    wordnetSynonyms = loadSynonyms();
  } catch (IOException e) {
    e.printStackTrace();
  }
  result = new SynonymFilter(result, wordnetSynonyms, false);
  result = new StopFilter(result, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
  return new TokenStreamComponents(source, result);
}

private SynonymMap loadSynonyms() throws IOException {
  File file = new File("synonyms\\wn_s.pl");
  InputStream stream = new FileInputStream(file);
  Reader reader = new InputStreamReader(stream);
  SynonymMap.Builder parser = null;
  parser = new WordnetSynonymParser(true, true, new StandardAnalyzer(CharArraySet.EMPTY_SET));
  try {
    ((WordnetSynonymParser) parser).parse(reader);
  }   catch (ParseException e) {
    e.printStackTrace();
  }

  return parser.build();
}

}

这个方法的问题是我得到java.lang.OutOfMemoryError,我假设是因为有太多的同义词或什么?什么是这样做的正确方法,我在网上看到的任何地方都建议使用WordNet,但我似乎找不到Hibernate Search Annotations的例子。感谢任何帮助,谢谢!

1 个答案:

答案 0 :(得分:1)

SynonymFilterFactory实际上支持wordnet格式。您只是错过了"格式"注释配置中的参数;默认情况下,工厂使用Solr格式。

将注释更改为:

@TokenFilterDef(
    factory = SynonymFilterFactory.class,
    params = {
        @Parameter(name = "ignoreCase", value = "true"),
        @Parameter(name = "expand", value = "true"),
        @Parameter(name = "synonyms", value = "synonymsfile"),
        @Parameter(name = "format", value = "wordnet") // Add this
    }
)

另外,请确保"同义词"的值。参数是类路径中文件的路径(例如" com / acme / synonyms.pl"或者只是" synonyms.pl"如果文件位于&#的根目录中34;资源"目录)。

一般情况下,当您遇到Lucene过滤器/标记器工厂的参数问题时,最好的办法是查看该工厂的源代码,或查看this page