我试图使用Jsoup在这个亚马逊页面上提取书籍的作者:Link
我已经能够抓住这些标准:
public static final String URL_LITERATURE_FICTION="https://www.amazon.com/b/ref=s9_acss_bw_en_BGG15eve_d_1_6_w?_encoding=UTF8&node=17&pf_rd_m=ATVPDKIKX0DER&pf_rd_s=merchandised-search-top-3&pf_rd_r=8Z2ERCN30FREH3ZD6AHC&pf_rd_r=8Z2ERCN30FREH3ZD6AHC&pf_rd_t=101&pf_rd_p=c0b03f4d-c947-45e3-9b66-2bd220509181&pf_rd_p=c0b03f4d-c947-45e3-9b66-2bd220509181&pf_rd_i=283155";
Document doc = Jsoup.connect(URL_LITERATURE_FICTION).userAgent("Mozilla").get();
Elements link = doc.select(".s-result-list-parent-container > ul > li .s-access-title");
但我不知道如何提取作者。有任何想法吗? 提前谢谢。
答案 0 :(得分:2)
根据您在问题中提供的链接,您的抓取需求的有效DOM选择器是:
.a-fixed-left-grid .a-fixed-left-grid-inner .a-row.a-spacing-none .a-size-small.a-color-secondary .a-link-normal.a-text-normal