抓取我们目前所在网页的网址

时间:2014-02-20 20:14:31

标签: python web-scraping scrapy

我想知道我们是否可以抓取我们目前所在网页的网址?

例如,如果我想从scrapy.org中删除数据,那么我可以定义规则来提取数据和页面中提供的链接。但是,我可以从该网页抓取网址scrapy.org作为url吗?由于html文件中不会提到我们当前的URL,有没有办法做到这一点?

以下是我要解决的问题:

我正试图从this网页上抓取工作说明。

我想知道我们是否也可以提取该页面的超链接。

1 个答案:

答案 0 :(得分:1)

是。

在您的解析代码中,您应该有一个response对象,而response.url将是当前页面被抓取的网址。

Have a read of scrapy documentation for more details