我在java中使用jericho html解析器。我想从网站上获取数据。在网站html内容是这样的....
<div class="class_div">
<div class="class_div2">All contents...</div>`
<span class="equals">Content 1</span>
<span class="equals">Content 2</span>
<span class="equals">Content 3</span>
<span class="equals">Content 4</span>
</div>
我想获取内容1,内容2,内容3,内容4.如何获取此内容?
我正在使用此代码
String sourceUrlString="<website url>";
if (sourceUrlString.indexOf(':')==-1)
sourceUrlString="http:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
Element bodyContent = source.getElementByClass("equals");`
答案 0 :(得分:0)
问题出在哪里?使用您的代码,您可以获得每个Element
- 以及获得文本的代码:
Source source = new Source(/* ... */);
List<Element> elements = source.getAllElementsByClass("equals");
for( Element element : elements )
{
/*
* 'element.getTextExcrator().toString()' returns the text of the element
*/
System.out.println(element.getTextExtractor().toString());
}
<强>输出:强>
内容1
内容2
内容3
内容4