http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A
似乎在jsoup读取page之后稍后加载了某些内容? doc.html()中没有“ Abelia chinensis”,或者列表中没有其他任何元素
Document doc = Jsoup.connect("http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.ignoreContentType(true)
.ignoreHttpErrors(true)
.followRedirects(true)
.timeout(600000)
.maxBodySize(0)/*unlimited body size*/
.get();
responseBody = doc.html();
答案 0 :(得分:0)
ctx.height = 200;
在那儿,但是您可能会错过它,因为HTML是这样奇怪地构建的:
Abelia chinensis
要选择每个具有名称的链接,请使用:
<i>Abelia</i> <i>chinensis</i>
这意味着选择ID以Elements links = doc.select("a[id^=MainContentPlaceHolder_SearchResultsList_TaxonName_]");
开头的每个<a>
。它会精确选择821个结果。