如何使用Google电子表格抓取网站?

时间:2014-04-21 17:23:03

标签: xpath screen-scraping

我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974,我正在尝试提取“完整档案”下“观看”背后的href链接。

我想知道如何刮掉这个。我试过//dl[1]/dd[contains(a/text(),'View')]/@href但它没有返回任何数据。

我还希望获得一个专家意见,了解最有效的网站抓取方式是:从Google Docs直接运行importXML是否更好?或者使用Scripts更好的方法吗?

1 个答案:

答案 0 :(得分:1)

您尝试查询<dd>的{​​{1}}标记(不存在)。尝试

@href

代替。或者,更接近原始表达:

//dd/a[. = 'View']/@href
  

从Google Docs直接运行importXML是否更好?或者使用脚本有更好的方法吗?

取决于复杂的事情会变得多么复杂。如果您只是想阅读一些表格数据,那么您可能最好使用普通的电子表格;如果编写自己的脚本更复杂可能是合理的。