通过XML解析从docx文件中提取第一页内容

时间:2014-07-03 09:15:37

标签: java xml document domparser

我需要从docx文件中提取第一页内容并将其另存为单独的文档。我需要将第一页(图像,表格,文本)中的所有内容保存为新的docx文件。

我尝试的是:   我查看了解压缩的docx文件的xml。由于word文档是可重排的,因此我无法在每个页面结束后找到分页符。所以我无法通过document.xml找到每个页面的结尾

有没有办法使用java XML DOM解析器单独获取文档第一页的XML内容?

1 个答案:

答案 0 :(得分:0)

不要编写新的解析器,有很多已经存在的工具(例如,如果您的输入从XML更改为二进制Word文件会怎么样?)。

例如,使用Apache POI,如@JFB建议的那样。