Jsoup无法读取/加载整个页面

时间:2019-11-06 06:21:27

标签: jsoup

http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A

似乎在jsoup读取page之后稍后加载了某些内容? doc.html()中没有“ Abelia chinensis”,或者列表中没有其他任何元素

Document doc = Jsoup.connect("http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A")
        .header("Accept-Encoding", "gzip, deflate")
        .userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
        .ignoreContentType(true)               
        .ignoreHttpErrors(true)
        .followRedirects(true)
        .timeout(600000)
        .maxBodySize(0)/*unlimited body size*/
        .get();  

    responseBody =  doc.html();

1 个答案:

答案 0 :(得分:0)

ctx.height = 200; 在那儿,但是您可能会错过它,因为HTML是这样奇怪地构建的:

Abelia chinensis

要选择每个具有名称的链接,请使用:

<i>Abelia</i> <i>chinensis</i>

这意味着选择ID以Elements links = doc.select("a[id^=MainContentPlaceHolder_SearchResultsList_TaxonName_]"); 开头的每个<a>。它会精确选择821个结果。