我是python和scrapy的新手。我想要遵循Scrapy教程,但我不理解storage step的逻辑。
scrapy crawl spidername -o items.json -t json
scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv
我不明白的意思是:
感谢您的帮助
答案 0 :(得分:23)
您可以在项目目录中键入scrapy crawl -h
来查看可用命令列表。
scrapy crawl spidername -o items.json -t json
-o
指定转储项目(items.json)的输出文件名-t
指定转储项目的格式(json) scrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv
--set
用于设置/覆盖设置FEED_URI
用于设置项目转储的存储后端。在这个例子中,它被设置为“output.csv”,它使用本地文件系统,即一个简单的输出文件。(对于当前的例子 - output.csv)FEED_FORMAT
用于设置(输出)Feed的序列化格式,即(对于当前示例csv)参考文献(Scrapy文档):
答案 1 :(得分:0)
-设置
命令行提供的参数优先,优先于其他任何选项。
您可以使用-s(或--set)命令行选项显式覆盖一个(或多个)设置。
Example:
scrapy crawl myspider -s LOG_FILE=scrapy.log
sets the LOG_FILE settings value to `scrapy.log`
-o
指定输出文件名和扩展名 WHERE ,您将抓取的数据写入到其中
Examples:
scrapy crawl quotes -o items.csv
scrapy crawl quotes -o items.json
scrapy crawl quotes -o items.xml
-t
指定序列化格式或如何写入项目