我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974,我正在尝试提取“完整档案”下“观看”背后的href链接。
我想知道如何刮掉这个。我试过//dl[1]/dd[contains(a/text(),'View')]/@href
但它没有返回任何数据。
我还希望获得一个专家意见,了解最有效的网站抓取方式是:从Google Docs直接运行importXML是否更好?或者使用Scripts更好的方法吗?
答案 0 :(得分:1)
您尝试查询<dd>
的{{1}}标记(不存在)。尝试
@href
代替。或者,更接近原始表达:
//dd/a[. = 'View']/@href
从Google Docs直接运行importXML是否更好?或者使用脚本有更好的方法吗?
取决于复杂的事情会变得多么复杂。如果您只是想阅读一些表格数据,那么您可能最好使用普通的电子表格;如果编写自己的脚本更复杂可能是合理的。