Scrapy错误:无法绑定:24:打开的文件太多

时间:2017-09-24 18:07:39

标签: python web-scraping scrapy

我在域列表上运行Scrapy,很多页面都收到此错误: Couldn't bind: 24: Too many open files.

我的linux机器上没有出现此错误,但我现在正在Mac上使用它。我不确定这是否与在Sierra上运行有关,或者我是否遗漏了Scrapy配置。我检查了ulimit并返回unlimited,所以我不会认为就是这样。

如果它与我的蜘蛛有关,这就是:

class JakeSpider(CrawlSpider):
    name = 'jake'
    allowed_domains = allowedDomains
    start_urls = startUrls
    rules = (
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )


    def parse_page(self, response):
        page = response.url
        domain = urlparse(page).netloc
        domain = domain.replace('www.','')
        #print(domain, 'is domain and page is', page)
        linksToGet = getHotelUrlsForDomain(domain)
        #if(len(linksToGet) == 0):
        #    print('\n ... links to get was zero \n')
        #print('linksToGet = ', linksToGet)
        links = response.xpath('//a/@href').extract()
        for link in links:
            if link in linksToGet:
                print('\n\n\n   found one! ', link, 'is on', domain, ' and the page is', page,'\n\n\n')
                with open('hotelBacklinks.csv', 'a') as csvfile:
                    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                    writer.writerow({'hotelURL':link, 'targetDomain': domain})

编辑:这是其中一个的完整错误行。它不会导致刮擦崩溃,但是有很多这样的行,所以我认为我没有得到尽可能多的页面。错误行: 2017-09-24 14:21:29 [scrapy.core.scraper] ERROR: Error downloading <GET https://alabamatheatre.com/>: Couldn't bind: 24: Too many open files.

提前感谢任何提示。

1 个答案:

答案 0 :(得分:0)

  1. 您应该使用pipeline来保存所有已删除的数据。
  2. 您遇到此错误,因为您有许多调用函数parse_page。每个函数都尝试打开并写入同一个文件。写入文件是块操作 这是Scrapy https://doc.scrapy.org/en/latest/topics/item-pipeline.html
  3. 的文档