Question

我是Apache solr的新手我的项目中有一个要求，我必须将pdf文件从HDFS上传到Solr，并从那里我想要使用Solr rest API。我在本地文件系统中总共有40k pdf文档，首先我将它们推送到HDFS。但从那里到Solr我真的没有任何想法

另一件事是在索引到solr时，我想从pdf文档中读取一些数据并将数据索引到Solr中。 示例：我想要从pdf文档中获取候选名称，候选位置，并将它们推送到solr架构，看起来像，

x = [1,4,5,3,6,2,7,4,3]';
A = flipud(reshape(x,3,3)');

我通过互联网搜索了这个，但找不到合适的解决方案

Answer 1

您应该尝试使用DirectoryIngestMapper，它有Tika解析，但您必须自定义它。