如何使用Jsoup提取本书的作者?

时间:2017-12-06 14:48:31

标签: java web-scraping jsoup

我试图使用Jsoup在这个亚马逊页面上提取书籍的作者:Link

enter image description here

我已经能够抓住这些标准:

public static final String URL_LITERATURE_FICTION="https://www.amazon.com/b/ref=s9_acss_bw_en_BGG15eve_d_1_6_w?_encoding=UTF8&node=17&pf_rd_m=ATVPDKIKX0DER&pf_rd_s=merchandised-search-top-3&pf_rd_r=8Z2ERCN30FREH3ZD6AHC&pf_rd_r=8Z2ERCN30FREH3ZD6AHC&pf_rd_t=101&pf_rd_p=c0b03f4d-c947-45e3-9b66-2bd220509181&pf_rd_p=c0b03f4d-c947-45e3-9b66-2bd220509181&pf_rd_i=283155";
Document doc = Jsoup.connect(URL_LITERATURE_FICTION).userAgent("Mozilla").get();
Elements link = doc.select(".s-result-list-parent-container > ul > li .s-access-title");

但我不知道如何提取作者。有任何想法吗? 提前谢谢。

1 个答案:

答案 0 :(得分:2)

根据您在问题中提供的链接,您的抓取需求的有效DOM选择器是:

.a-fixed-left-grid .a-fixed-left-grid-inner .a-row.a-spacing-none .a-size-small.a-color-secondary .a-link-normal.a-text-normal