我正在尝试在EC2上安排一个爬虫并将输出导出到csv文件cppages-nov.csv,同时创建一个jobdir encase我需要暂停爬网,但它不会创建任何文件。我使用正确的Feed导出吗?
curl http://awsserver:6800/schedule.json -d project=wallspider -d spider=cppages -d JOBDIR=/home/ubuntu/scrapy/sitemapcrawl/crawls/cppages-nov -d FEED_URI=/home/ubuntu/scrapy/sitemapcrawl/cppages-nov.csv -d FEED_FORMAT=csv
答案 0 :(得分:3)
curl http://amazonaws.com:6800/schedule.json -d project=wallspider -d spider=cppages -d setting=FEED_URI=/home/ubuntu/scrapy/sitemapcrawl/results/cppages.csv -d setting=FEED_FORMAT=csv -d setting=JOBDIR=/home/ubuntu/scrapy/sitemapcrawl/crawl/cppages-nov
答案 1 :(得分:2)
在您的设置文件中使用此Feed
FEED_EXPORTERS = {
'csv': 'scrapy.contrib.exporter.CsvItemExporter',
}
FEED_FORMAT = 'csv'