我正在将混合语言pdf文档索引到solr,这意味着单个文档由不同语言编写,主要是英语部分和法语部分。我想根据语言将每个部分流式传输到特定的字段。
所以,让我们说“你好,我的名字是尼古拉斯。Je voudrais extraire du texte avec solr”将被编入两个字段, Field_en“你好,我的名字是尼古拉斯” 和Field_fr“Je voudrais extraire du texte avec SOLR”。
目前,我只能在文档级别(使用solr的LangDetect处理器)这样做,但它对混合语言文档没有帮助。
如果它太难了,我至少希望能够在索引编制过程中有选择地删除一种语言,并在一个字段中获得一种语言。
答案 0 :(得分:0)
据我所知,Solr中没有内置的支持来做你想做的事情,所以我的建议是使用处理程序的支持只通过附加{{1}来提取内容(而不是索引它)。对请求。这将为您提供文档的内容。
然后,您可以解析内容并通过语言分类器运行每个句子 - 或者如果您想将其保留在Solr中 - 请为每个句子分配一个文档。根据文档的数量和您要查询的内容,这可能不太可行。