在我的Solr配置文件中,我定义了一个DataImportHandler,它从Mysql数据库中提取数据,并处理与SQL数据库的寄存器相关的PDF文件的内容。数据导入工作正常。
我试图在数据导入阶段检测文件中包含的文本语言。我在我的solrconfig.xml中指定了一个TikaLanguageIdentifierUpdateProcessorFactory
,如https://wiki.apache.org/solr/LanguageDetection中所述,并在我的文档架构中定义了语言字段,然而,在我从Solr管理员运行索引后,我看不到任何语言在我的文件上的字段。
在我看到的所有示例中,语言检测是通过使用post命令将文档发布到solr来完成的,是否可以使用DataImportHandler进行语言检测?
答案 0 :(得分:0)
一旦定义了UpdateRequestProcessor链,就需要在请求处理程序中实际指定它(在本例中为DataImportHandler)。您可以使用 update.chain 参数执行此操作。
另外,请确保包含LogUpdate and RunUpdate processors,否则您根本就不会编入索引。