我正在尝试将openNLP与Solr集成。 我完成了openNLP词形还原的集成,但索引文档需要很长时间才能完成索引(也是提交)。
架构:
是否将opennlp_text字段编入索引=" true"?
<fieldType name="open_nlp" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.OpenNLPTokenizerFactory" sentenceModel="opennlp/en-sent.bin" tokenizerModel="opennlp/en-token.bin"/>
<filter class="solr.OpenNLPFilterFactory" posTaggerModel="opennlp/en-pos-maxent.bin"/>
<filter class="solr.OpenNLPLemmatizerFilterFactory" dictionary="opennlp/en-lemmatizer.txt"/>
</analyzer>
</fieldType>
en-lemmatizer.txt-&gt;该文件的大小为7mb。
在lemmatizer实现之前的索引时间是2到3mts,但现在是相同文档的~2hrs 。我不知道为什么在索引期间出现这样的时间差。当我分析字段时我也无法找到结果以进行词形还原。请帮助我编写一个有效的结构,以便索引性能更快更好也有助于了解相同的最佳实现。
谢谢和问候。