如何在scrapy项目中管理多个蜘蛛

时间:2014-09-11 03:50:44

标签: scrapy

我是scrapy的新手,但已经成功创造了一个相当复杂的蜘蛛。现在我想在同一个项目中添加更多内容。我尝试复制我的工作蜘蛛并编辑它以与另一个目标一起工作,但我得到了各种全局变量错误。我尝试过“scrapy crawl my_new_spider”,但似乎所有的蜘蛛都被启动了。是什么赋予了?应该只在现有蜘蛛中添加一个新类?这似乎不可扩展...任何指针将不胜感激。文档让我相当远,但我现在磕磕绊绊。

非常感谢!

1 个答案:

答案 0 :(得分:4)

我从您的问题中了解到,添加更多蜘蛛的最佳方法是在spiders文件夹下的新文件中添加新类, 尝试给每个蜘蛛分别命名。使用此结构,您可以共享同一项目下所有蜘蛛的items.py,settings.py等。

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            spider1.py
            spider2.py
            ......

在spider1和spider2中你可以相应地设置名称,比如

    name= "spider1" and name="spider2"

以便您可以将蜘蛛作为

运行
    scrapy crawl spider_name