使用Google电子表格中的importxml在表格中提取href

时间:2014-05-21 00:26:50

标签: xpath google-sheets

我试图从这个网站拉出每个表的每一行的href:

http://www.epa.gov/region4/superfund/sites/sites.html#KY

我可以使用=IMPORTHTML(A1,"table",1)为所有7个表提取表信息,但我需要href到站点并提供详细信息。

使用=IMPORTxml(A1,"//div[@class='box']")我可以从以下网站获取所需信息:

http://www.epa.gov/region4/superfund/sites/fedfacs/alarmyaplal.html

但是我需要为原始页面上的每一行提取fedfacs/alarmyaplal.html部分。

我已尝试使用//@href,但未返回任何结果。我认为这是因为数据是在表格中构建的,但我仍然坚持从这里开始。

1 个答案:

答案 0 :(得分:1)

我不确定任何Google电子表格功能,但这里有一个XPath来选择肯塔基州网站的所有href属性(因为您的第一个链接包括' ky' anchor):

//body//a[@id='ky']/following-sibling::table[1]/tbody/tr/td[1]/strong/a/@href

这是肯塔基州表格的特定内容:following-sibling::table[1]表示table之后和a[@id='ky']之后的第一个{{1}}节点。