2009年9月28日,Apache POI project发布了3.5版本,正式支持Office 2007中引入的OOXML格式,如DOCX和XLSX。
请提供一个代码示例,用于以纯文本格式提取DOCX文件的内容,忽略任何样式或格式。
我问这个是因为我无法找到任何覆盖新OOXML支持的Apache POI示例。
答案 0 :(得分:18)
这对我有用。确保添加所需的jar(升级xmlbeans等)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
答案 1 :(得分:6)
这是更通用的
POITextExtractor poitex = ExtractorFactory.createExtractor(in);
返回poitex.getText();