是否有用于读取Word文档(.docx和旧的.doc格式)的开源Java库?
只读访问权限;我不需要使用Java修改Word文档。但是,我希望能够访问图像和样式信息。
修改
我已经检查了Apache POI,但它看起来并没有被积极维护。见http://poi.apache.org/hwpf/index.html:
目前,我们很遗憾没有人照顾HWPF并促进其发展。
答案 0 :(得分:7)
Apache POI HWPF表示.doc,XWPF表示.docx文件
答案 1 :(得分:5)
有一个apache项目可以执行此操作:http://poi.apache.org//
答案 2 :(得分:1)
public class XParseTest
{
public static void main(String[] args) throws XmlException, OpenXML4JException, IOException
{
File file=new File("e:\\testing\\new.docx");
FileInputStream fs = new FileInputStream(file);
OPCPackage d = OPCPackage.open(fs);
XWPFWordExtractor xw = new XWPFWordExtractor(d);
System.out.println(xw.getText());
}
}
这将解析docx文件...