Question

我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974，我正在尝试提取“完整档案”下“观看”背后的href链接。

我想知道如何刮掉这个。我试过//dl[1]/dd[contains(a/text(),'View')]/@href但它没有返回任何数据。

我还希望获得一个专家意见，了解最有效的网站抓取方式是：从Google Docs直接运行importXML是否更好？或者使用Scripts更好的方法吗？

Answer 1

您尝试查询<dd>的{{1}}标记（不存在）。尝试

@href

代替。或者，更接近原始表达：

//dd/a[. = 'View']/@href

从Google Docs直接运行importXML是否更好？或者使用脚本有更好的方法吗？

取决于复杂的事情会变得多么复杂。如果您只是想阅读一些表格数据，那么您可能最好使用普通的电子表格;如果编写自己的脚本更复杂可能是合理的。