在Solr中索引纯文本文件

时间:2018-07-24 11:46:16

标签: indexing solr plaintext

在查找正确的结构合理的手册时遇到问题,并提供有关如何在Solr(.txt)中对纯文本进行索引的信息。

我明白了如何使用Solr标准数据类型(例如.xml或.json),但到目前为止,至少还没有至少一份结构化且描述完整的纯文本索引手册(尤其是如果您的文件不包含id和只有文字和空格)。

期待收到一些可以帮助我解决此问题的资源或一些代码示例,它们可以帮助解决此问题。

1 个答案:

答案 0 :(得分:1)

您仍然应该能够使用extract端点(在后台使用Apache Tika)。您可以提供字段值through the query string as seen in the example for the techproducts data set

/solr/techproducts/update/extract?literal.id=doc1&commit=true

literal.id=doc1参数为无法从提交的数据集中提取的字段提供实际值。

请确保set the Content-Type header to text/plain when you're submitting(除非您要作为常规的html表单提交提交)。