Apache Solr不会对扫描的PDF进行索引

时间:2017-01-16 11:48:17

标签: java solr lucene apache-tika

我想索引扫描的PDF文件。我在Centos 6上安装了 Solr 6.3.0 tesseract 3.04 leptonica 1.74 。我已根据documentation配置了我的solrconfig

我已经为png,jpg测试了tesseract和solr,每件事看起来都很好。但是当我尝试索引扫描的PDF文件时,Solr不会将扫描图像编入索引,只提取pdf评论消息(sample document)。 (根据索引响应使用DefaultParser和PDFParser)

之后我用谷歌搜索问题,我发现这个solution(我测试过,它有效!)但是我无法将Java代码转换为Xml配置。我该如何将java代码设置为Xml配置文件?

任何帮助都会很棒!

1 个答案:

答案 0 :(得分:0)

您可以使用Lucene 3.0索引并搜索已扫描的pdf文件。我已使用Lucene 3.0对已扫描的pdf文件编制索引,并在扫描的pdf中搜索最常重复的字词。