我正在使用Java中的以下代码解析word文件
ParseContext pcontext = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
InputStream stream = TikaInputStream.get(new File(file.getAbsolutePath()));
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
parser.parse(stream, handler, metadata);
如何生成xml / JSON以保存内容?
答案 0 :(得分:0)
您可以使用处理程序和元数据信息获取doc的内容,如下所示。在JSON中设置这些信息或根据您的要求生成XML。
System.out.println("Contents of the document:" + handler.toString());
System.out.println(" " + metadata.get(Metadata.CONTENT_TYPE));
System.out.println("Sample Word Document"+ metadata.get(TikaCoreProperties.TITLE));
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}