我正在使用JSOUP来提取数据。 我有一个html文件:
=
<ul>
<li>
<i>
<a class="Class1" title="title1" href=""www.title1.com">title1</a>
</i>
(one)
</li>
<li>
<i>
<a title=title2" href="www.title2.com">title2</a>
</i>
(two)
</li>
<li>
<i>
<a title="title3" href=""www.title2.com">title3</a>
</i>
(three)
</li>
</ul>
如何使用JSOUP打印title1,title2和title3, 2)如何打印hrefs?
答案 0 :(得分:0)
非常简单:
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String title1 = link.attr("title");
//etc.
你看过here吗?
还要确保HTML为well formed。例如匹配报价
上面的HTML输出格式不正确,例如:
<a class="Class1" title="title1" href=""www.title1.com">title1</a>
^ extra quote
<a title=title2" href="www.title2.com">title2</a>
^ missing quote
JSoup 需要有效的HTML。