我想从使用无限滚动的网页解析html,例如:pinterest.com以获取所有项目。
public List<String> popularTagsPinterest(String tag) throws Exception {
List<String> results = new ArrayList<>();
try {
Document doc = Jsoup.connect(
urlPinterest + tag + "&eq=%23" + tag + "&etslf=6622&term_meta[]=%23" + tag + "%7Cautocomplete%7C0")
.timeout(90000).get();
Elements img1 = doc.select("a.pinImageWrapper img.pinImg");
for (Element e : img1) {
results.add(e.attr("src"));
System.out.println(e.attr("src"));
}
} catch (Exception e) {
e.printStackTrace();
}
return results;
}
答案 0 :(得分:0)
获取基本网址,然后ajax调用即可加载另一部分。
检查此页,是一个很好的例子。
https://blog.scrapinghub.com/2016/06/22/scrapy-tips-from-the-pros-june-2016