我目前正在使用JSoup从Instant.com上读取网页,目的是获取页面的特定部分。我了解使用JSoup来获取链接等,但是我正在努力在特定的标题下获取正文。
此处的示例文本为:
<h2 class="jobSectionHeader"><b>What We Are Looking For
</b></h2><div><div><div><div><b>Skills and Requirements</b></div><ul><li>
Sample requirement 1</li><li>
Sample requirement 2</li><li>
Sample requirement 3</li><li>
Sample requirement 4</li>
</ul></div></div></div>
我不确定如何使用Jsoup指定在其中包含“资格”文本的jobSectionHeader区域,然后获取该标题下的文本。我要查找特定的类还是某些标签,例如div或h2?
答案 0 :(得分:0)
为了获取所有具有class作为jobSectionHeader的元素下的文本,请尝试以下代码片段。这将在该标题下打印文本。
String html = "<h2 class="jobSectionHeader"><b>What We Are Looking For
</b></h2><div><div><div><div><b>Skills and Requirements</b></div><ul><li>
Sample requirement 1</li><li>
Sample requirement 2</li><li>
Sample requirement 3</li><li>
Sample requirement 4</li>
</ul></div></div></div>";
Document doc = Jsoup.parse(html);
Elements elements = doc.getElementsByClass("jobSectionHeader");
String text = "";
for(Element elem : elements) {
text += elem.text();
}
Log.d("Text Under jobSectionHeader",text);