我想从<a @href='#' onclick="redirectpage(2);return false"> ... </a>中提取网址

时间:2019-11-18 11:17:38

标签: python-3.x xpath web-scraping scrapy scrapy-splash

我正在使用scrapy并传递SplashRequest,我希望照常从@href中提取url,但是当我检查href以获取实际的url时,没有为其分配我要查找的url,但是而是看到“#”,然后将鼠标悬停在“#”上时,我可以看到要查找的网址。

如何获取该网址,然后使用SplashRequest跟踪它?

HTML代码如下所示:-

<a @href= '#' onclick="redirectpage(2);return false" >Page 120</a>

当我将鼠标悬停在@href上时,我看到的网址如下所示:=

https://example.com/page/120

2 个答案:

答案 0 :(得分:0)

要获取href / url属性:

//div[@class='---']/a/@href

我相信这对于任何页面都是有效的

答案 1 :(得分:0)

要获取网址,您应该使用一些动态数据获取方法, 单击特定的URL并查看Url作为响应。

如果页面源中的内容不可用,则可以通过某些脚本动态加载。 我们应该这样处理。