我对大数据和Tika很新。我只想知道有没有办法将word文档(.doc)转换为JSON格式。我听说使用java的morphline需要编码来执行此操作,但我不知道Java,有没有可用的解决方案。
我将在Apache SolR中使用Tika。
答案 0 :(得分:2)
如下所示,您可以使用ToXMLContentHandler提取xml,然后转换为json
更多示例here
public String parseBodyToHTML(InputStream stream) throws IOException, SAXException, TikaException {
ContentHandler handler = new BodyContentHandler(
new ToXMLContentHandler());
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata);
return handler.toString();
}
另一种选择是为自己编写一个JsonHandler ContentHandler