如何在apache tika中将word文档转换为Json

时间:2016-08-09 17:26:43

标签: solr solrj apache-tika

我对大数据和Tika很新。我只想知道有没有办法将word文档(.doc)转换为JSON格式。我听说使用java的morphline需要编码来执行此操作,但我不知道Java,有没有可用的解决方案。

我将在Apache SolR中使用Tika。

1 个答案:

答案 0 :(得分:2)

如下所示,您可以使用ToXMLContentHandler提取xml,然后转换为json

更多示例here

public String parseBodyToHTML(InputStream stream) throws IOException, SAXException, TikaException {
    ContentHandler handler = new BodyContentHandler(
            new ToXMLContentHandler());

    AutoDetectParser parser = new AutoDetectParser();
    Metadata metadata = new Metadata();
    parser.parse(stream, handler, metadata);
    return handler.toString();
}

另一种选择是为自己编写一个JsonHandler ContentHandler