Question

我正在尝试将openNLP与Solr集成。我完成了openNLP词形还原的集成，但索引文档需要很长时间才能完成索引（也是提交）。

架构：

是否将opennlp_text字段编入索引=＆＃34; true＆＃34;？

<fieldType name="open_nlp" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.OpenNLPTokenizerFactory" sentenceModel="opennlp/en-sent.bin"  tokenizerModel="opennlp/en-token.bin"/>
    <filter class="solr.OpenNLPFilterFactory" posTaggerModel="opennlp/en-pos-maxent.bin"/>
   <filter class="solr.OpenNLPLemmatizerFilterFactory" dictionary="opennlp/en-lemmatizer.txt"/>
  </analyzer>
</fieldType>

en-lemmatizer.txt-＆gt;该文件的大小为7mb。

在lemmatizer实现之前的索引时间是2到3mts，但现在是相同文档的~2hrs 。我不知道为什么在索引期间出现这样的时间差。当我分析字段时我也无法找到结果以进行词形还原。请帮助我编写一个有效的结构，以便索引性能更快更好也有助于了解相同的最佳实现。

谢谢和问候。

使用带有Solr的openNLP Lemmatizer时，索引需要很长时间

0 个答案: