Scrapy:存储数据

时间:2012-12-28 17:38:20

标签: python scrapy

我是python和scrapy的新手。我想要遵循Scrapy教程,但我不理解storage step的逻辑。

scrapy crawl spidername -o items.json -t json

scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv 

我不明白的意思是:

  • -o
  • -t
  • - 设置

感谢您的帮助

2 个答案:

答案 0 :(得分:23)

您可以在项目目录中键入scrapy crawl -h来查看可用命令列表。

scrapy crawl spidername -o items.json -t json
  • -o指定转储项目(items.json)的输出文件名
  • -t指定转储项目的格式(json)

scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv

  • --set用于设置/覆盖设置
  • FEED_URI用于设置项目转储的存储后端。在这个例子中,它被设置为“output.csv”,它使用本地文件系统,即一个简单的输出文件。(对于当前的例子 - output.csv)
  • FEED_FORMAT用于设置(输出)Feed的序列化格式,即(对于当前示例csv)

参考文献(Scrapy文档):

  1. Available tool commands (for the command line)
  2. Feed exports

答案 1 :(得分:0)

-设置

命令行提供的参数优先,优先于其他任何选项。

您可以使用-s(或--set)命令行选项显式覆盖一个(或多个)设置。

Example:

    scrapy crawl myspider -s LOG_FILE=scrapy.log

    sets the LOG_FILE settings value to `scrapy.log`

-o

指定输出文件名和扩展名 WHERE ,您将抓取的数据写入到其中

Examples: 
    scrapy crawl quotes -o items.csv
    scrapy crawl quotes -o items.json
    scrapy crawl quotes -o items.xml

-t

指定序列化格式或如何写入项目

https://www.tutorialspoint.com/scrapy/scrapy_settings.htm