我正在使用Apache POI从MS word文件中提取格式信息。
我想提取段落是否有子弹,背景颜色,前景色,对齐等信息。
没有太多可用于此的文档或教程。 Javadoc也没有太多有用的信息。
我在哪里可以获得可以帮助我学习Apache POI API的教程/优秀文档?
答案 0 :(得分:3)
对于HWPF(.doc),您可能需要的类是:
根据您想要的确切属性,它可能位于段落或字符属性上。
我可以想到用HWPF读取word文档并获取文本,检查样式和格式等的最佳示例是来自Apache Tika的WordExtractor: https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java
(.docx的XWPF类似)