SOLR 6.6 OCR扫描PDF文件

时间:2017-12-04 12:47:18

标签: java solr ocr tesseract

我在Linux上安装了一个非常默认的(用户指南)SOLR 6.6.0。 现在我需要对扫描的PDF文件进行全文(OCR)搜索。我已经阅读了有关Tesseract的图片。但我找不到一个很好的教程如何用PDF实现这个。 有什么建议吗?

谢谢, FLO