Spark - Scala:解析并提取包含Text和Image - .doc,.docx文件的文档

时间:2017-07-08 07:32:49

标签: scala apache-spark-2.0

我有几个包含图像和文本的文件(doc,docx文件)。我想解析这些文件并提取内容,无论是否有图像细节。

目前我正在使用Apache Tika拒绝解析此类文件。它完美适用于PDF和纯文本.doc,.docx文件。但是有图像的文件会抛出错误:

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pkg.TikaArchiveStreamFactory.detect(TikaArchiveStreamFactory.java:472) at org.apache.tika.parser.pkg.ZipContainerDetector.detectArchiveFormat(ZipContainerDetector.java:112)

有没有办法从这些文件中提取内容。 ?

1 个答案:

答案 0 :(得分:0)

将我的所有文件转换为PDF文档。 然后使用Tika Parser - TesseractOCR。