SOLR 4.1语言检测

时间:2013-05-28 21:33:59

标签: solr multilingual apache-tika

我正在尝试使用SOLR附带的LangDetectLanguageIdentifierUpdateProcessorFactory在索引文档时检测语言。它看起来很简单的实现,我把以下内容放到solrconfig.xml

<updateRequestProcessorChain>
  <processor class="org.apache.solr.update.processor.LangDetectLanguageIdentifierUpdateProcessorFactory">
    <str name="langid.fl">title</str>
    <str name="langid.langField">language_s</str>
    <str name="langid.fallback">en</str>
    <bool name="langid.map">true</bool>
    <bool name="langid.map.individual">true</bool>
    <str name="langid.map.individual.fl">title</str>
    <str name="langid.whitelist">en, fr, de, it, ar, ja, zh-cn, zh-tw</str>
    <bool name="langid.map.keepOrig">true</bool>
    </processor>
    <processor class="solr.LogUpdateProcessorFactory" />
    <processor class="solr.RunUpdateProcessorFactory" />
 </updateRequestProcessorChain> 

但是当我开始solr时,它说无法加载类LangDetectLanguageIdentifierUpdateProcessorFactory。我也试过TikaLanguageIdentifierUpdateProcessorFactory但没有运气。我可能错过了什么。我是否需要任何其他包/库/类才能在SOLR中使用多语言检测功能?

1 个答案:

答案 0 :(得分:1)

确保apache-solr-langid-X.X.jarcontrib/langid/lib中的相关广告可用于solr。