我正在使用Scrapy
进行网络抓取,成功创建了一个Spider,它将抓取包括具有相同域的内部链接在内的整个网站,我已经使用Link Extractor实现了这一点。此抓取在英语网站上成功完成,但是当我尝试抓取德语网站时,它不起作用,未调用回调function parse_item()
。如果我将parse_item()
更改为parse()
,那么将抓取德语网站的域URL,而不是内部链接。我该如何解决?
下面是我的代码:
class WebSpider(CrawlSpider):
name = 'WebSpider'
#init function
def __init__(self, *args, **kwargs):
#code to accept domain url
WebSpider.rules = [
Rule(LinkExtractor(unique=True), callback='parse_item', follow=True)
]
super(WebSpider, self).__init__(*args, **kwargs
def parse_item(self, response):
#Call back function to work with response