我需要在docs中对它们进行一些转换,然后才能在solr中对它们进行索引。但是文本来自各种资源,在索引之前很难进行转换,因为我必须调整几个程序来解析文件。我正在考虑在solr中索引它们,提取文本字段,进行转换并重新索引。
我试过了:
curl 'http://localhost:8983/solr/collection1/select?q=*&rows=20000&wt=xml&indent=true'
但输出是一个结果xml文件,而我正在寻找一些方法来提取文档,如发布格式的字段。这可能吗?我该怎么办?
由于
答案 0 :(得分:0)
我建议使用Integrating Solr页面上列出的其中一个Solr客户端。这将允许您使用您选择的编程语言来提取和转换Solr文档,然后将它们重新加载到索引中。