我是Apache solr的新手 我的项目中有一个要求,我必须将pdf文件从HDFS上传到Solr,并从那里我想要使用Solr rest API。 我在本地文件系统中总共有40k pdf文档,首先我将它们推送到HDFS。但从那里到Solr我真的没有任何想法
另一件事是在索引到solr时,我想从pdf文档中读取一些数据并将数据索引到Solr中。 示例:我想要从pdf文档中获取候选名称,候选位置,并将它们推送到solr架构,看起来像,
x = [1,4,5,3,6,2,7,4,3]';
A = flipud(reshape(x,3,3)');
我通过互联网搜索了这个,但找不到合适的解决方案
答案 0 :(得分:0)
尝试使用https://github.com/lucidworks/hadoop-solr
您应该尝试使用DirectoryIngestMapper,它有Tika解析,但您必须自定义它。