用于读取Word文档的Java库

时间:2011-10-11 20:15:12

标签: java ms-word

是否有用于读取Word文档(.docx和旧的.doc格式)的开源Java库?

只读访问权限;我不需要使用Java修改Word文档。但是,我希望能够访问图像和样式信息。

修改

我已经检查了Apache POI,但它看起来并没有被积极维护。见http://poi.apache.org/hwpf/index.html

  

目前,我们很遗憾没有人照顾HWPF并促进其发展。

3 个答案:

答案 0 :(得分:7)

Apache POI HWPF表示.doc,XWPF表示.docx文件

答案 1 :(得分:5)

有一个apache项目可以执行此操作:http://poi.apache.org//

答案 2 :(得分:1)

public class XParseTest 
{
    public static void main(String[] args) throws XmlException, OpenXML4JException, IOException 
    {
        File file=new File("e:\\testing\\new.docx");
        FileInputStream fs = new FileInputStream(file);
        OPCPackage d = OPCPackage.open(fs);
        XWPFWordExtractor xw = new XWPFWordExtractor(d);
        System.out.println(xw.getText());    

    }

}

这将解析docx文件...