网站上的Google表格IMPORTXML文本字段

时间:2019-10-14 06:53:32

标签: xpath web-scraping google-sheets google-sheets-formula google-sheets-importxml

我正在尝试动态提取符合凯利蓝皮书中特定条件的汽车的汽车价值。我有这个IMPORTXML查询,该查询具有指向显示汽车以旧换新价格的特定页面的链接。

=IMPORTXML("https://www.kbb.com/Api/3.9.462.0/71553/vehicle/upa/PriceAdvisor/meter.svg?action=Get&intent=trade-in-sell&pricetype=FPP&zipcode=12345&vehicleid=411852&selectedoptions=6762567|true|6762674|false|6762900|false|6762905|false|6762909|false|6762913|false|6762915|true|6762926|false|6762928|false&hideMonthlyPayment=False&condition=verygood&mileage=40000", "//text[@y='-8']")

在此URL中,有一个文本字段,其y坐标为-8。我希望识别我要提取的数据(以旧换新值)就足够了。我得到了标准的“无法提取URL错误”,无法弄清原因。

1 个答案:

答案 0 :(得分:2)

问题不在您的XPath "//text[@y='-8']"内,而是网站本身。

基本上,您有两种选择可以测试网站是否可以被抓取:

=IMPORTXML("URL", "//*")

XPath //*的意思是“一切可能刮擦的东西”

和直接的源代码抓取方法:

=IMPORTDATA("URL")

有时源代码非常庞大,Google表格无法对其进行处理,因此需要对它进行如下限制:

=ARRAY_CONSTRAIN(IMPORTDATA("URL"), 10000, 10)

无论如何,这些都不可以从您的网址中抓取任何内容