如何从Tika解析输出

时间:2017-01-02 15:08:27

标签: text-parsing apache-tika

我正在使用Apache Tika解析docx文件。解析是工作文件,期望它还在开头打印一些不必要的文本,如下所示:

  

[Content_Types] .xml _rels / .rels word / _rels / document.xml.rels   word / document.xml

,最后如下:

  

word / theme / theme1.xml word / settings.xml word / fontTable.xml   word / webSettings.xml docProps / app.xml正常13 3 460 2627   Microsoft Office Word 0 21 6 false XXXX XXXX false 3081 false false   12.0000 docProps / core。 xml XXX XXXX 1 2016-12-16T14:57:00Z 2016-12-16T15:10:00Z word / styles.xml

代码是:

public static String extractString(File file)
    {
        BodyContentHandler handler = new BodyContentHandler();

        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(file)) 
        {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }
        catch (IOException | SAXException | TikaException e)
        {
            e.printStackTrace();
            return null;
        }
    }

如何从开头和结尾删除不必要的垃圾?

0 个答案:

没有答案