我正在使用Apache Tika解析docx文件。解析是工作文件,期望它还在开头打印一些不必要的文本,如下所示:
[Content_Types] .xml _rels / .rels word / _rels / document.xml.rels word / document.xml
,最后如下:
word / theme / theme1.xml word / settings.xml word / fontTable.xml word / webSettings.xml docProps / app.xml正常13 3 460 2627 Microsoft Office Word 0 21 6 false XXXX XXXX false 3081 false false 12.0000 docProps / core。 xml XXX XXXX 1 2016-12-16T14:57:00Z 2016-12-16T15:10:00Z word / styles.xml
代码是:
public static String extractString(File file)
{
BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = new FileInputStream(file))
{
parser.parse(stream, handler, metadata);
return handler.toString();
}
catch (IOException | SAXException | TikaException e)
{
e.printStackTrace();
return null;
}
}
如何从开头和结尾删除不必要的垃圾?