Question

我正在使用Apache Tika解析docx文件。解析是工作文件，期望它还在开头打印一些不必要的文本，如下所示：

[Content_Types] .xml _rels / .rels word / _rels / document.xml.rels word / document.xml

，最后如下：

word / theme / theme1.xml word / settings.xml word / fontTable.xml word / webSettings.xml docProps / app.xml正常13 3 460 2627 Microsoft Office Word 0 21 6 false XXXX XXXX false 3081 false false 12.0000 docProps / core。 xml XXX XXXX 1 2016-12-16T14：57：00Z 2016-12-16T15：10：00Z word / styles.xml

代码是：

public static String extractString(File file)
    {
        BodyContentHandler handler = new BodyContentHandler();

        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(file)) 
        {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }
        catch (IOException | SAXException | TikaException e)
        {
            e.printStackTrace();
            return null;
        }
    }

如何从开头和结尾删除不必要的垃圾？

如何从Tika解析输出

0 个答案: