apache poi中是否有任何函数可以让你遍历word文档中的每一页?与HSLF组件类似,您可以在其中访问powerpoint文件中的每个幻灯片内容?
答案 0 :(得分:1)
我不知道如何遍历word文档中的每个页面,但我编写了这段代码,使用poi和jSoup提取所有部分:
private List<String> extractListOfSections() {
String content = parse.getXMLHandler().toString();
Document doc = Jsoup.parse(content);
List<Element> link = doc.select("h, h1, h2, h3, h4, h5, h6");
List<String> headings = new ArrayList<String>();
for (Element element : link) {
if (element.text() != null) {
headings.add(element.text().replaceAll("\\p{P}", " "));
}
}
return headings;
}
然后,我使用此列表提取每个部分的内容。