无法使用Scrapy抓取德语网站

时间:2020-01-24 11:28:48

标签: python scrapy pycharm

我正在使用Scrapy进行网络抓取,成功创建了一个Spider,它将抓取包括具有相同域的内部链接在内的整个网站,我已经使用Link Extractor实现了这一点。此抓取在英语网站上成功完成,但是当我尝试抓取德语网站时,它不起作用,未调用回调function parse_item()。如果我将parse_item()更改为parse(),那么将抓取德语网站的域URL,而不是内部链接。我该如何解决?

下面是我的代码:

class WebSpider(CrawlSpider):

    name = 'WebSpider'

     #init function
     def __init__(self, *args, **kwargs):
         #code to accept domain url

        WebSpider.rules = [
                Rule(LinkExtractor(unique=True), callback='parse_item', follow=True)
            ]

        super(WebSpider, self).__init__(*args, **kwargs

     def parse_item(self, response):
         #Call back function to work with response

0 个答案:

没有答案