杰里科纯文本如何分开文本

时间:2012-12-22 04:09:07

标签: java html

我正在尝试使用以下代码使用Jericho解析纯文本:

    public static String getPlainText(String html) {
    Source htmlSource = new Source(html);
    Segment htmlSeg = new Segment(htmlSource, 0, html.length());
    Renderer htmlRend = new Renderer(htmlSeg);
   // System.out.println(htmlRend.toString());
    return htmlRend.toString();
}

但是对于以下html片段:

    Phone (808) 845-0000<br />
    Fax (808) 842-3616
    <a href="mailto:helpdesk@progressive-hi.com">
    helpdesk@progressive-hi.com</a>         

我收到了输出:

  

电话(808)845-0000传真(808)842-3616helpdesk@progressive-hi.com

现在我想要的是标签中的所有文本都应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法实现这个目标?

由于

1 个答案:

答案 0 :(得分:1)

问题解决了。

Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());

http://jericho.htmlparser.net/samples/console/src/ExtractText.java