我尝试使用Apache Tika来解析文档内容。但是,我没有检索文档的内容,而是获得了空字符串。当我通过调用metadata.get("X-Parsed-By")
检查使用了哪个解析器时,我总是只获得org.apache.tika.parser.EmptyParser
。
这是我的代码:
private String parseToString(byte[] content) throws IOException, SAXException, TikaException {
ContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
parser.parse(TikaInputStream.get(content), handler, metadata);
return handler.toString();
}
感谢您的帮助!