我使用带有spring-boot的Apache Tika编写了一个API,我在docker中将此应用程序作为容器运行,但Apache Tika依赖于安装在主机上的Tesseract-OCR。是否有容器可以访问Tesseract-OCR的方法?
当我直接在主机上运行这个spring-boot应用程序时,Apache Tika成功调用了Tesseract-OCR。
ENV: Ubuntu 16.04 Java 8
核心代码:
InputStream input = file.getInputStream();
BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
metadata.set(TikaMetadataKeys.RESOURCE_NAME_KEY, file.getOriginalFilename());
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
context.set(Parser.class, parser);
parser.parse(input, textHandler, metadata, context);