如何使用Apache POI提取word文档的格式信息?

时间:2011-03-28 07:49:24

标签: ms-word apache-poi

我正在使用Apache POI从MS word文件中提取格式信息。

我想提取段落是否有子弹,背景颜色,前景色,对齐等信息。

没有太多可用于此的文档或教程。 Javadoc也没有太多有用的信息。

我在哪里可以获得可以帮助我学习Apache POI API的教程/优秀文档?

1 个答案:

答案 0 :(得分:3)

对于HWPF(.doc),您可能需要的类是:

根据您想要的确切属性,它可能位于段落或字符属性上。

我可以想到用HWPF读取word文档并获取文本,检查样式​​和格式等的最佳示例是来自Apache Tika的WordExtractor: https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java

(.docx的XWPF类似)