Question

我正在使用Scrapy进行网络抓取，成功创建了一个Spider，它将抓取包括具有相同域的内部链接在内的整个网站，我已经使用Link Extractor实现了这一点。此抓取在英语网站上成功完成，但是当我尝试抓取德语网站时，它不起作用，未调用回调function parse_item()。如果我将parse_item()更改为parse()，那么将抓取德语网站的域URL，而不是内部链接。我该如何解决？

下面是我的代码：

class WebSpider(CrawlSpider):

    name = 'WebSpider'

     #init function
     def __init__(self, *args, **kwargs):
         #code to accept domain url

        WebSpider.rules = [
                Rule(LinkExtractor(unique=True), callback='parse_item', follow=True)
            ]

        super(WebSpider, self).__init__(*args, **kwargs

     def parse_item(self, response):
         #Call back function to work with response

无法使用Scrapy抓取德语网站

0 个答案: