应用错误收集

Apache Solr不会对扫描的PDF进行索引

时间：2017-01-16 11:48:17

标签： java solr lucene apache-tika

我想索引扫描的PDF文件。我在Centos 6上安装了 Solr 6.3.0 ， tesseract 3.04 ， leptonica 1.74 。我已根据documentation配置了我的solrconfig

我已经为png，jpg测试了tesseract和solr，每件事看起来都很好。但是当我尝试索引扫描的PDF文件时，Solr不会将扫描图像编入索引，只提取pdf评论消息（sample document）。（根据索引响应使用DefaultParser和PDFParser）

之后我用谷歌搜索问题，我发现这个solution（我测试过，它有效！）但是我无法将Java代码转换为Xml配置。我该如何将java代码设置为Xml配置文件？

任何帮助都会很棒！

1 个答案:

答案 0 :(得分：0)

您可以使用Lucene 3.0索引并搜索已扫描的pdf文件。我已使用Lucene 3.0对已扫描的pdf文件编制索引，并在扫描的pdf中搜索最常重复的字词。