通过ImportDATA过滤提取的数据

时间:2019-08-31 13:56:25

标签: web-scraping google-sheets google-sheets-formula google-sheets-query importdata

当尝试通过ImportDATA从https://int.soccerway.com/中提取数据时,电子表格有时会返回一条消息,提示它超出了数据限制。

我想做的是,不导入所有内容,而是仅过滤|||内的值。 td class =“ score-time status” |||,因为我想捕获它在“ td”中特定“ class”中的链接。

导入XML来捕获“ // td [@ class ='score-time status'] / @ href”不是一种选择,因为其中一些链接是隐藏的,仅出现在常规页面记录中,因此仅使用ImporDATA能够搜索所有现有链接。

=IMPORTDATA("https://int.soccerway.com/")

我已经尝试了多种方式添加ARRAYFORMULA和FILTER,以便仅过滤此数据,但是每次返回错误时都如此。

我需要收集的是其中的链接: ||| td class =“得分时间状态” |||

1 个答案:

答案 0 :(得分:0)

您可以执行以下操作:

=ARRAY_CONSTRAIN(IMPORTDATA("https://int.soccerway.com/"), 8000, 1)

然后,您可以将其包装在查询中并对其进行过滤以使其适合您。例如:

=QUERY(ARRAY_CONSTRAIN(IMPORTDATA("https://int.soccerway.com/"), 8000, 1), 
 "where Col1 contains 'td'", 0)

enter image description here

=QUERY(ARRAY_CONSTRAIN(IMPORTDATA("https://int.soccerway.com/"), 8000, 1), 
 "where Col1 contains 'href'", 0)