我需要从docx文件中提取第一页内容并将其另存为单独的文档。我需要将第一页(图像,表格,文本)中的所有内容保存为新的docx文件。
我尝试的是: 我查看了解压缩的docx文件的xml。由于word文档是可重排的,因此我无法在每个页面结束后找到分页符。所以我无法通过document.xml找到每个页面的结尾
有没有办法使用java XML DOM解析器单独获取文档第一页的XML内容?
答案 0 :(得分:0)
不要编写新的解析器,有很多已经存在的工具(例如,如果您的输入从XML更改为二进制Word文件会怎么样?)。
例如,使用Apache POI,如@JFB建议的那样。