应用错误收集

通过XML解析从docx文件中提取第一页内容

时间：2014-07-03 09:15:37

标签： java xml document domparser

我需要从docx文件中提取第一页内容并将其另存为单独的文档。我需要将第一页（图像，表格，文本）中的所有内容保存为新的docx文件。

我尝试的是：我查看了解压缩的docx文件的xml。由于word文档是可重排的，因此我无法在每个页面结束后找到分页符。所以我无法通过document.xml找到每个页面的结尾

有没有办法使用java XML DOM解析器单独获取文档第一页的XML内容？

1 个答案:

答案 0 :(得分：0)

不要编写新的解析器，有很多已经存在的工具（例如，如果您的输入从XML更改为二进制Word文件会怎么样？）。

例如，使用Apache POI，如@JFB建议的那样。