使用单个类名从html标记获取文本,html标记将包含多个类

时间:2014-07-10 07:57:27

标签: java html css jsoup

我有一个html行,其中标签内有标签,单个标签我包含多个类。我需要用单个类名称提取文本(我只知道一个类名)

<p class="Body1"><span class="style3"></span><span class="style1">W</span><span class="Allsmall style5">extract this text </span><span class="style5">unwanted text </span></p>

我知道类名Allsmall,我想在java中使用Jsoup从html行中提取文本“extract this text”。

1 个答案:

答案 0 :(得分:1)

您可以使用选择器语法根据其 CSS 类属性检索特定元素:

Document doc = Jsoup.parse(
  new File("input.html"), 
  "UTF-8", 
  "http://sample.com/");

Element allSmallSpan = doc.select("span.Allsmall").first(); // Retrive the first <span> element which belongs to "Allsmall" class