从使用无限滚动的网页解析html

时间:2017-03-09 13:24:19

标签: java jsoup

我想从使用无限滚动的网页解析html,例如:pinterest.com以获取所有项目。

public List<String> popularTagsPinterest(String tag) throws Exception {

    List<String> results = new ArrayList<>();
    try {
        Document doc = Jsoup.connect(
                urlPinterest + tag + "&eq=%23" + tag + "&etslf=6622&term_meta[]=%23" + tag + "%7Cautocomplete%7C0")
                .timeout(90000).get();
        Elements img1 = doc.select("a.pinImageWrapper img.pinImg");
        for (Element e : img1) {
            results.add(e.attr("src"));
            System.out.println(e.attr("src"));
        }
    } catch (Exception e) {
        e.printStackTrace();

    }
    return results;
}

1 个答案:

答案 0 :(得分:0)

获取基本网址,然后ajax调用即可加载另一部分。

检查此页,是一个很好的例子。

https://blog.scrapinghub.com/2016/06/22/scrapy-tips-from-the-pros-june-2016