如何使用apache poi遍历word文档中的每个页面?

时间:2015-08-17 09:26:56

标签: java apache-poi

apache poi中是否有任何函数可以让你遍历word文档中的每一页?与HSLF组件类似,您可以在其中访问powerpoint文件中的每个幻灯片内容?

1 个答案:

答案 0 :(得分:1)

我不知道如何遍历word文档中的每个页面,但我编写了这段代码,使用poi和jSoup提取所有部分:

   private List<String> extractListOfSections() {

        String content = parse.getXMLHandler().toString();
        Document doc = Jsoup.parse(content);
        List<Element> link = doc.select("h, h1, h2, h3, h4, h5, h6");

        List<String> headings = new ArrayList<String>();

        for (Element element : link) {
            if (element.text() != null) {
                headings.add(element.text().replaceAll("\\p{P}", " "));
            }
        }

        return headings;

    }

然后,我使用此列表提取每个部分的内容。