应用错误收集

抓取我们目前所在网页的网址

时间：2014-02-20 20:14:31

标签： python web-scraping scrapy

我想知道我们是否可以抓取我们目前所在网页的网址？

例如，如果我想从scrapy.org中删除数据，那么我可以定义规则来提取数据和页面中提供的链接。但是，我可以从该网页抓取网址scrapy.org作为url吗？由于html文件中不会提到我们当前的URL，有没有办法做到这一点？

以下是我要解决的问题：

我正试图从this网页上抓取工作说明。

我想知道我们是否也可以提取该页面的超链接。

1 个答案:

答案 0 :(得分：1)

是。

在您的解析代码中，您应该有一个response对象，而response.url将是当前页面被抓取的网址。

Have a read of scrapy documentation for more details