我有几个包含图像和文本的文件(doc,docx文件)。我想解析这些文件并提取内容,无论是否有图像细节。
目前我正在使用Apache Tika拒绝解析此类文件。它完美适用于PDF和纯文本.doc,.docx文件。但是有图像的文件会抛出错误:
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I
at org.apache.tika.parser.pkg.TikaArchiveStreamFactory.detect(TikaArchiveStreamFactory.java:472)
at org.apache.tika.parser.pkg.ZipContainerDetector.detectArchiveFormat(ZipContainerDetector.java:112)
有没有办法从这些文件中提取内容。 ?
答案 0 :(得分:0)
将我的所有文件转换为PDF文档。 然后使用Tika Parser - TesseractOCR。