标签: apache-tika
我正在使用apache tika命令行工具从doc和docx文件中提取文本。我可以获得整个文本,但我无法以页面形式获取它们,以便我可以单独存储每个页面。有没有办法实现这一目标?
答案 0 :(得分:1)
Tika使用Apache POI来处理Word文件(旧的二进制文件和更新的基于XML的文件)。
由于POI(从根本上)无法读出这些页码,Tika也不是文档渲染器,答案很简单:不,这是不可能的。
为了更深入地了解为什么您的要求(从技术角度来看)没有多大意义,请参阅我的回答here。