我刚刚开始使用jsoup和site,并且发生了一些奇怪的事情。
我想要的只是选择列标题下的文本,您可以使用以下html找到该文本:
<div class="Table1_A1 grow clear-fix">
<div class="grd-col grd-col-1a"> … </div>
<div class="grd-col grd-col-2b">
<p>
<span class="T1">
<a href="...."> TITLE TEXT IS HERE
</a>
</span>
</p>
</div>
...
</div>
看看这个html结构,我想出了以下jsoup选择:
try {
Document htmlDocument = Jsoup.connect(url).get();
Elements as = htmlDocument.select("div.grow > div.grd-col-2b > p > span.T1 > a");
System.out.println(as.html());
} catch (IOException e) {
e.printStackTrace();
}
这是事情:它只打印到标题“尽快”,但之后有负载,它们根本就没有出现。所以我想知道,jsoup“.select()”对它返回的节点有限制吗?我不知道如何解决这个问题,非常感谢任何帮助。
答案 0 :(得分:7)
Jsoup对选择没有限制,但是请求的正文大小有1MB的默认限制。这应该可以解决问题:
Document doc = Jsoup.connect(url).timeout(60000).maxBodySize(10*1024*1024).get();