Apache tika:删除结果字符串中的额外换行符

时间:2013-07-04 17:26:50

标签: java apache-tika

我有html文件:

<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;">
<div>Test message.</div>
<div>&nbsp;</div>
<div>More content here...</div>
<div>&nbsp;</div>
<div>Best regards,</div>
<div>Mr. Crowley</div></div></body></html>

我尝试使用Apache Tika获取上面文件的内容......

final InputStream input = new FileInputStream("file.html");
final ContentHandler handler = new BodyContentHandler();
final Metadata metadata = new Metadata();

final HtmlParser htmlParser = new HtmlParser();
htmlParser.parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
System.out.println(plainText);

......除了额外的换行符外,一切都很好:

Test message.

 

More content here...

 

Best regards,

Mr. Crowley
<and 3 empty lines here>

有可能避免这种行为吗?是否有可能获得更多预期结果:

Test message.
 
More content here...
 
Best regards,
Mr. Crowley

这样的代码构造
plainText = plainText.replaceAll("(\n)+", "\n");
很遗憾,对我来说,这是不可能的。此外,我无法更改HTML文件的结构。

1 个答案:

答案 0 :(得分:6)

一种解决方案是实现自定义ContentHandler,它不会写入这些新行(原始文档中的新行仍将保留):

public class OriginalBodyContentHandler extends BodyContentHandler {
    @Override
    public void ignorableWhitespace(char[] ch, int start, int length)
            throws SAXException {
        // Not writing extra new lines generated by XHTMLContentHandler.
    }
}