在查找正确的结构合理的手册时遇到问题,并提供有关如何在Solr(.txt)中对纯文本进行索引的信息。
我明白了如何使用Solr标准数据类型(例如.xml或.json),但到目前为止,至少还没有至少一份结构化且描述完整的纯文本索引手册(尤其是如果您的文件不包含id和只有文字和空格)。
期待收到一些可以帮助我解决此问题的资源或一些代码示例,它们可以帮助解决此问题。
答案 0 :(得分:1)
您仍然应该能够使用extract
端点(在后台使用Apache Tika)。您可以提供字段值through the query string as seen in the example for the techproducts data set:
/solr/techproducts/update/extract?literal.id=doc1&commit=true
literal.id=doc1
参数为无法从提交的数据集中提取的字段提供实际值。
请确保set the Content-Type
header to text/plain
when you're submitting(除非您要作为常规的html表单提交提交)。