Question

我试图从这个网站拉出每个表的每一行的href：

http://www.epa.gov/region4/superfund/sites/sites.html#KY

我可以使用=IMPORTHTML(A1,"table",1)为所有7个表提取表信息，但我需要href到站点并提供详细信息。

使用=IMPORTxml(A1,"//div[@class='box']")我可以从以下网站获取所需信息：

http://www.epa.gov/region4/superfund/sites/fedfacs/alarmyaplal.html

但是我需要为原始页面上的每一行提取fedfacs/alarmyaplal.html部分。

我已尝试使用//@href，但未返回任何结果。我认为这是因为数据是在表格中构建的，但我仍然坚持从这里开始。

Answer 1

我不确定任何Google电子表格功能，但这里有一个XPath来选择肯塔基州网站的所有href属性（因为您的第一个链接包括＆＃39; ky＆＃39; anchor）：

//body//a[@id='ky']/following-sibling::table[1]/tbody/tr/td[1]/strong/a/@href

这是肯塔基州表格的特定内容：following-sibling::table[1]表示table之后和a[@id='ky']之后的第一个{{1}}节点。