检索抓取的网址Scrapy

时间:2014-04-04 23:40:13

标签: python scrapy web-crawler

我已经使用Scrapy构建了一个抓取特定网站的抓取工具。如果url与给定的正则表达式匹配,则跟踪器跟随,如果url与其他定义的正则表达式匹配,则调用回调函数。构建爬虫的主要目的是提取网站中所有必需的链接,而不是链接中的内容。任何人都可以告诉我如何打印所有已爬网链接的列表。代码是:

name = "xyz"
allowed_domains = ["xyz.com"]
start_urls = ["http://www.xyz.com/Vacanciess"] 
rules = (Rule(SgmlLinkExtractor(allow=[regex2]),callback='parse_item'),Rule(SgmlLinkExtractor(allow=[regex1]), follow=True),)



def parse_item(self, response):
 #sel = Selector(response)

 #title = sel.xpath("//h1[@class='no-bd']/text()").extract()
 #print title
 print response

print title 

代码非常有效。但是在上面的代码中,如果我尝试打印实际的响应,它会返回我:

[xyz] DEBUG: Crawled (200)<GET http://www.xyz.com/urlmatchingregex2> (referer:  http://www.xyz.com/urlmatchingregex1)
<200 http://www.xyz.com/urlmatchingregex2>

任何人都可以帮我检索实际的网址。

1 个答案:

答案 0 :(得分:1)

您可以在response.url方法中打印parse_item以打印已抓取的网址。记录here