在Apache Tika OCR的PDF中自定义图像预处理是否有最佳实践?

时间:2019-08-29 18:34:05

标签: pdf ocr apache-tika

将内部包含扫描/拍摄的图像的pdf文件提供给Apache Tika时,处理器会提取图像(如果配置正确)并将其交给tesseract。这对于OCR形状合适的图像(来自纸张扫描仪)效果很好,但对于来自电话摄像头(例如 是否有一种方法可以在将每个图像页面发送到tesseract之前,由Tika为其调用自己的图像预处理器?

0 个答案:

没有答案