我正在尝试使用以下代码使用Jericho解析纯文本:
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
但是对于以下html片段:
Phone (808) 845-0000<br />
Fax (808) 842-3616
<a href="mailto:helpdesk@progressive-hi.com">
helpdesk@progressive-hi.com</a>
我收到了输出:
电话(808)845-0000传真(808)842-3616helpdesk@progressive-hi.com
现在我想要的是标签中的所有文本都应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法实现这个目标?
由于
答案 0 :(得分:1)
问题解决了。
Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());
http://jericho.htmlparser.net/samples/console/src/ExtractText.java