我试图从这个网站拉出每个表的每一行的href:
http://www.epa.gov/region4/superfund/sites/sites.html#KY
我可以使用=IMPORTHTML(A1,"table",1)
为所有7个表提取表信息,但我需要href
到站点并提供详细信息。
使用=IMPORTxml(A1,"//div[@class='box']")
我可以从以下网站获取所需信息:
http://www.epa.gov/region4/superfund/sites/fedfacs/alarmyaplal.html
但是我需要为原始页面上的每一行提取fedfacs/alarmyaplal.html
部分。
我已尝试使用//@href
,但未返回任何结果。我认为这是因为数据是在表格中构建的,但我仍然坚持从这里开始。
答案 0 :(得分:1)
我不确定任何Google电子表格功能,但这里有一个XPath来选择肯塔基州网站的所有href
属性(因为您的第一个链接包括' ky' anchor):
//body//a[@id='ky']/following-sibling::table[1]/tbody/tr/td[1]/strong/a/@href
这是肯塔基州表格的特定内容:following-sibling::table[1]
表示table
之后和a[@id='ky']
之后的第一个{{1}}节点。