应用错误收集

时间：2017-06-26 18:08:20

标签： solr nlp

我正在将混合语言pdf文档索引到solr，这意味着单个文档由不同语言编写，主要是英语部分和法语部分。我想根据语言将每个部分流式传输到特定的字段。

所以，让我们说“你好，我的名字是尼古拉斯。Je voudrais extraire du texte avec solr”将被编入两个字段， Field_en“你好，我的名字是尼古拉斯” 和Field_fr“Je voudrais extraire du texte avec SOLR”。

目前，我只能在文档级别（使用solr的LangDetect处理器）这样做，但它对混合语言文档没有帮助。

如果它太难了，我至少希望能够在索引编制过程中有选择地删除一种语言，并在一个字段中获得一种语言。

答案 0 :(得分：0)

据我所知，Solr中没有内置的支持来做你想做的事情，所以我的建议是使用处理程序的支持只通过附加{{1}来提取内容（而不是索引它）。对请求。这将为您提供文档的内容。

然后，您可以解析内容并通过语言分类器运行每个句子 - 或者如果您想将其保留在Solr中 - 请为每个句子分配一个文档。根据文档的数量和您要查询的内容，这可能不太可行。