应用错误收集

SOLR 6.6 OCR扫描PDF文件

时间：2017-12-04 12:47:18

标签： java solr ocr tesseract

我在Linux上安装了一个非常默认的（用户指南）SOLR 6.6.0。现在我需要对扫描的PDF文件进行全文（OCR）搜索。我已经阅读了有关Tesseract的图片。但我找不到一个很好的教程如何用PDF实现这个。有什么建议吗？

谢谢， FLO

1 个答案:

答案 0 :(得分：0)

您应该使用ExtractingRequestHandler。

在这里您可以找到可以帮助您的配置示例：