如何在htmlcleaner或jSoup中的标记内提取文本

时间:2013-02-03 18:48:29

标签: android htmlcleaner

我是Android开发的新手,无法理解HtmlCleaner或jSoup的基础知识。

我有一个页面,例如

<html><body>
....(large code here)....
<b>Hello World! </b> 
....(large code here)....
</body> </html>

如何在<b>..</b>代码中提取单词?

2 个答案:

答案 0 :(得分:2)

如果您尝试使用Jsoup,这应该非常简单

Document doc = Jsoup.connect("http://www.w3schools.com/tags/tag_b.asp").get();
Element firstBoldElement = doc.select("b").first();
System.out.println("Bold Text is : "+firstBoldElement.text());

您必须为上述代码添加适当的异常处理。

答案 1 :(得分:2)

使用jSoup。请原谅任何错误,我是从记忆中写下来的。

Document doc = Jsoup.parse(pageString);
Elements eles = doc.getElementsByTag("b");
for(int i = 0; i < eles.size(); i++)
{
    System.out.println(eles.get(i).text());
}