标签: pdf ocr apache-tika
将内部包含扫描/拍摄的图像的pdf文件提供给Apache Tika时,处理器会提取图像(如果配置正确)并将其交给tesseract。这对于OCR形状合适的图像(来自纸张扫描仪)效果很好,但对于来自电话摄像头(例如 是否有一种方法可以在将每个图像页面发送到tesseract之前,由Tika为其调用自己的图像预处理器?