使用带有Solr的openNLP Lemmatizer时,索引需要很长时间

时间:2017-03-22 19:05:12

标签: solr lucene opennlp lemmatization

我正在尝试将openNLP与Solr集成。 我完成了openNLP词形还原的集成,但索引文档需要很长时间才能完成索引(也是提交)。

架构

是否将opennlp_text字段编入索引=" true"?

<fieldType name="open_nlp" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.OpenNLPTokenizerFactory" sentenceModel="opennlp/en-sent.bin"  tokenizerModel="opennlp/en-token.bin"/>
    <filter class="solr.OpenNLPFilterFactory" posTaggerModel="opennlp/en-pos-maxent.bin"/>
   <filter class="solr.OpenNLPLemmatizerFilterFactory" dictionary="opennlp/en-lemmatizer.txt"/>
  </analyzer>
</fieldType>

en-lemmatizer.txt-&gt;该文件的大小为7mb。

在lemmatizer实现之前的索引时间是2到3mts,但现在是相同文档的~2hrs 。我不知道为什么在索引期间出现这样的时间差。当我分析字段时我也无法找到结果以进行词形还原。请帮助我编写一个有效的结构,以便索引性能更快更好也有助于了解相同的最佳实现。

谢谢和问候。

0 个答案:

没有答案