应用错误收集

Spark - Scala：解析并提取包含Text和Image - .doc，.docx文件的文档

时间：2017-07-08 07:32:49

标签： scala apache-spark-2.0

我有几个包含图像和文本的文件（doc，docx文件）。我想解析这些文件并提取内容，无论是否有图像细节。

目前我正在使用Apache Tika拒绝解析此类文件。它完美适用于PDF和纯文本.doc，.docx文件。但是有图像的文件会抛出错误：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pkg.TikaArchiveStreamFactory.detect(TikaArchiveStreamFactory.java:472) at org.apache.tika.parser.pkg.ZipContainerDetector.detectArchiveFormat(ZipContainerDetector.java:112)

有没有办法从这些文件中提取内容。？

1 个答案:

答案 0 :(得分：0)

将我的所有文件转换为PDF文档。然后使用Tika Parser - TesseractOCR。

将Word doc或docx文件转换为文本文件？
从doc和docx中提取文本
用于生成.doc或.docx文档文件的Perl模块
从python中的docx文件中提取数据
从.doc文件python中提取文本
VB.NET读取doc和docx文件
使用apache-poi从doc和docx文件中提取标题和段落
删除Doc文件并保留Docx文件
如何查找和替换word文件doc和docx中的文本
Spark - Scala：解析并提取包含Text和Image - .doc，.docx文件的文档

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？