使用importxml

时间:2019-09-18 14:20:26

标签: web-scraping google-sheets google-sheets-formula google-sheets-query google-sheets-importxml

我是importxml的新手,无法使用importxml将产品数据抓取到Google Spreadsheet。

网页上的图像元素如下:

<div class="pd-img"><img src="https://img-trendyol.mncdn.com/Assets/ProductImages/oa/47/4778846/1/1032019101285_2_org.jpg" alt="" style="width: 78px; height: 114px; min-width: 78px; min-height: 114px;"></div>

当我尝试导入"//div[contains(@class,'pd-img')]/img/@src"时 根本不返回图像链接

阅读页面源代码后,我发现此xml查询:

"//div/img/@src"

将返回链接,它给了我链接,但是重复了,并且与前面的4条语句一起(总共6个单元格) 我正在使用的产品链接:https://www.trendyol.com/u-s-polo-assn/erkek-gomlek-g081sz004-000-855736-p-4778846?fbclid=IwAR1pOVpTNOyelKsgVpTQZJ0FRrb_37R-HlI_gm0XWb_ka9RaPGTO8JZZpZc

我明确需要的是importxml函数,该函数将仅从产品页面返回产品图像。

1 个答案:

答案 0 :(得分:0)

尝试:

=QUERY(IMPORTXML(
 "https://www.trendyol.com/u-s-polo-assn/erkek-gomlek-g081sz004-000-855736-p-4778846?fbclid=IwAR1pOVpTNOyelKsgVpTQZJ0FRrb_37R-HlI_gm0XWb_ka9RaPGTO8JZZpZc", 
 "//div/img/@src"), 
 "where Col1 starts with 'http' limit 1", 0)

0