IMPORTHTML /表格提取问题

时间:2019-04-30 16:14:09

标签: web-scraping google-sheets google-sheets-formula google-sheets-importxml

尝试导入多个销售市场的天气预报,但是我使用的网站被Bot Crawl阻止,因此我的ImportHTML函数无法获取URL。

我找到了另一个站点,但是表的格式设置为日历视图而不是列表视图。 我仍然可以通过某种方式将此信息提取到Google表格(GS)中吗?我已经获得了它来提取信息,但是它只是在GS中以[TABLE]出现。

这是我用来更改日期的代码:

=CONCATENATE("https://www.wunderground.com/calendar/us/ca/eureka/KACV/date/",$B$3,"-",$C$3,"?cm_ven=localwx_calendar")

以及将完整的URL表提取到GS中的代码:

=IMPORTHTML(A2, "Table", 1)

我希望第一个代码字符串从B3和C3以及Concatenate中提取今天的年和月,然后第二个代码字符串将所有这些都聚集在一起,然后从网站中提取所需的表,但是我得到了一堆[TABLE]的单元格。

2 个答案:

答案 0 :(得分:0)

那是不可能的。根据您的公式生成的网站由JavaScript控制,Google表格无法读取JS。您可以通过简单地禁用JS来看到这一点:

0

答案 1 :(得分:0)

有一个返回json的API。查看文档以查看是否有满足您需求的端点。例如,“广告联盟”标签显示了15天的预测

https://api.weather.com/v3/wx/forecast/daily/15day?language=en-US&apiKey=6532d6454b8aa370768e63d6ba5a832e&geocode=40.95%2C-124.11&units=e&format=json

您可能需要编写自己的脚本来处理此响应,或者使用ImportJSON之类的工具。通过少量研究,您很可能会找到合适的东西。

浏览15天预报JSON here