Scrapy - 使用JOBDIR获取重复的项目

时间:2014-03-06 16:56:53

标签: python csv scrapy

Scrapy的JOBDIR设置提供了可恢复的爬行,如下所述:

http://doc.scrapy.org/en/latest/topics/jobs.html

我尝试执行这样的抓取命令:

scrapy crawl myspider -o out.csv -t csv -s JOBDIR=./jobs/run-1

当它仍在运行时,我按下CTRL-C正常关闭它。然后再次发出相同的命令以恢复它。我可以确认它是从终端输出恢复爬行:

[myspider] INFO: Resuming crawl (74 requests scheduled)

但是当我查看输出CSV文件时,我发现有重复的项目如下:

name,email
Alice,alice@example.com
Bob,bob@example.com
...
name,email            <- duplicated header!
Bob,bob@example.com   <- duplicated row!
...

这是正常的吗?我想知道在同一个命令中使用-o选项和JOBDIR是否可以。如果没有,我如何导出已爬网的项目?

BTW,我正在使用Scrapy 0.22.1。

谢谢!

1 个答案:

答案 0 :(得分:4)

是的,这是可以预期的。如果您查看scrapy的源代码,尤其是CsvItemExporter的源代码,您会发现无状态相对于< strong>停止 / 恢复抓取。导出器基本上处理带有2个标志的标头。指示是否包含标题的人:include_headers_line。第二个:_headers_not_written,每次都会阻止标题被转储,除了会话的第一项外,还会写入新的已删除项。然而,每次重新启动爬虫时,这些标志都会重置,并且导出器似乎不会携带有关恢复会话的任何类型的信息:

class CsvItemExporter(BaseItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):

        ....
        self._headers_not_written = True
        ....

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

-o选项只是指示crawler将已删除的项目转储到指定的输出中:

class Command(ScrapyCommand):

    ....

    def add_options(self, parser):
        ScrapyCommand.add_options(self, parser)
        parser.add_option("-a", dest="spargs", action="append", default=[], metavar="NAME=VALUE", \
            help="set spider argument (may be repeated)")
        parser.add_option("-o", "--output", metavar="FILE", \
            help="dump scraped items into FILE (use - for stdout)")
        parser.add_option("-t", "--output-format", metavar="FORMAT", default="jsonlines", \
            help="format to use for dumping items with -o (default: %default)")