应用错误收集

使用Apache tika从页面中的doc / docx文件中获取文本

时间：2015-05-21 11:05:11

标签： apache-tika

我正在使用apache tika命令行工具从doc和docx文件中提取文本。我可以获得整个文本，但我无法以页面形式获取它们，以便我可以单独存储每个页面。有没有办法实现这一目标？

1 个答案:

答案 0 :(得分：1)

Tika使用Apache POI来处理Word文件（旧的二进制文件和更新的基于XML的文件）。

由于POI（从根本上）无法读出这些页码，Tika也不是文档渲染器，答案很简单：不，这是不可能的。

为了更深入地了解为什么您的要求（从技术角度来看）没有多大意义，请参阅我的回答here。