我无法使用Google表格IMPORTXML抓取此网站-抓取被阻止了吗?

时间:2019-04-07 21:58:50

标签: xml xpath web-scraping google-sheets

我正在尝试使用Google表格上的ImportXML函数抓取this website,尽管我可以从“ head”标签中获取信息,但无法从“ body”标签中获取任何信息。

例如,获取标题的功能应为

=importxml("link","//html/body/div[3]/div/div[1]/div/h3/a")

但是我得到一个#N/A "Imported content is empty"。我尝试将“ body”标签下的所有内容都刮掉,但没有成功。只是“ / body”不会返回错误,但确实会给我一个空单元格。我想知道是否只是在这里阻止刮到Google表格上。预先谢谢你。

1 个答案:

答案 0 :(得分:0)

您只能抓取在此图片上看到的内容:

0

如果是这样,那么您需要使用以下公式:

=ARRAY_CONSTRAIN(IMPORTDATA("http://poe.trade/search/roumedomigoniu"), 3000, 10)

并结合使用QUERYREXEXREPLACE / REGEXEXTRACT组合,直接从源代码中过滤出您需要的内容。