我想索引扫描的PDF文件。我在Centos 6上安装了 Solr 6.3.0 , tesseract 3.04 , leptonica 1.74 。我已根据documentation配置了我的solrconfig
我已经为png,jpg测试了tesseract和solr,每件事看起来都很好。但是当我尝试索引扫描的PDF文件时,Solr不会将扫描图像编入索引,只提取pdf评论消息(sample document)。 (根据索引响应使用DefaultParser和PDFParser)
之后我用谷歌搜索问题,我发现这个solution(我测试过,它有效!)但是我无法将Java代码转换为Xml配置。我该如何将java代码设置为Xml配置文件?
任何帮助都会很棒!
答案 0 :(得分:0)
您可以使用Lucene 3.0
索引并搜索已扫描的pdf
文件。我已使用Lucene 3.0
对已扫描的pdf
文件编制索引,并在扫描的pdf
中搜索最常重复的字词。