我有一个.docx文档,如下所示:
1. Part One
Some <message>xml</message> text
2. Part Two
Some plain text
我想获取纯文本内容并删除所有xml标签。 因此我使用Apache poi和Jsoup:
XWPFDocument docx = new XWPFDocument(new FileInputStream(path));
XWPFWordExtractor wordxExtractor = new XWPFWordExtractor(docx);
String content = wordxExtractor.getText();
System.out.println(content);
content = Jsoup.parse(content).text();
System.out.println(content);
打印:
Part One
Some <message>xml</message> text
Part Two
Some plain text
和
Part One Some xml text Part Two Some plain text
现在的问题是: 在xml解析之后,换行符不再出现 - 我怎么能避免这种情况(我想保留换行符)?