标签: java solr ocr tesseract
我在Linux上安装了一个非常默认的(用户指南)SOLR 6.6.0。 现在我需要对扫描的PDF文件进行全文(OCR)搜索。我已经阅读了有关Tesseract的图片。但我找不到一个很好的教程如何用PDF实现这个。 有什么建议吗?
谢谢, FLO
答案 0 :(得分:0)
您应该使用ExtractingRequestHandler。
在这里您可以找到可以帮助您的配置示例: