Jsoup:取文字和网址

时间:2015-05-26 16:31:56

标签: java android html html-parsing jsoup

我是这个HTML块:

<div class="singolo-contenuto link_azure">
<p>I'm a TEXTXXXXXXXXXXXXXXXX<p>
<a href="http://example.com">Name of URL</a></p></p>
<ul class="list_attachments"><li><a    
href="DON'T TOUCH"><img src='/img/fileicons/file.png' alt='file'/> TITLE</a></li></ul> 
</div>
<div class="clear"></div>

其实我带着文字:

 document.select(".singolo-contenuto").text();

那回到我身边: &#34;我是一个TEXTXXXXXXXXXXXXXXXX URL的名称&#34;。我不可能得到#34;我是一个TEXTXXXXXXXXXXXXXXXX http://example.com网址名称&#34;?

在所有页面中并不总是相同。 我只确定text和href将出现在&#34;&#34; singolo-contenuto link_azure&#34;类。

1 个答案:

答案 0 :(得分:2)

您可以根据需要按文本替换所有链接,然后调用.text()

伪代码:

for (Element elem : document.select(".singolo-contenuto a")) {
    if(elem.parents().hasClass("list_attachments")) continue;
    String href = elem.attr("href");
    String text = elem.text();
    elem.replaceWith(new TextNode(href + " " + text, ""));
}
String result = document.select(".singolo-contenuto").text();