通过命令行调用scrapy的自定义导出器

时间:2018-02-22 14:02:31

标签: python web-scraping scrapy scrapy-pipeline scrapy-shell

尝试resolve my problem(按特定项目的字段输出有序的Json数组)时,我received an answer建议我为作业创建自定义导出器。

我正在创建一个,但是......我发现的所有示例都建议通过管道调用它,但对我来说似乎有点多余(我已经在个人导出器上定义了自定义行为......为什么我也应该使用管道进行自定义?)。

我搜索的是一种通过scrapy shell调用自定义导出器的方法。例如,要输出json,我将使用:

scrapy crawl myspider -o myjson.json

是否存在以某种方式指定 my 自定义导出器以类似方式写入文件?我找到了自定义命令的实验性功能COMMANDS_MODULE,但我不确定如何将其链接到我的自定义导出器。

1 个答案:

答案 0 :(得分:2)

您可以使用FEED_EXPORTERS设置激活导出器。

FEED_EXPORTERS = {
    'json': 'path.to.SortedJsonItemExporter',
}