Question

上个星期我一直在研究一个小的scrapy项目，但我一直坚持使用scrapy管道将文件存储在minio存储桶中。我很想尝试使用默认和自定义管道，但没有结果。

我的迷你策略已设置为公开。

settings.py

ITEM_PIPELINES = {'tutorial.pipelines.zipsPipeline': 1}
FILES_STORE = 's3://minio/testing'

AWS_USE_SSL = False
AWS_VERIFY = False

AWS_ACCESS_KEY_ID = 'key'
AWS_SECRET_ACCESS_KEY= 'secret'

items.py

class zipItem(scrapy.Item):
    filecontent = scrapy.Field()

piplines.py

class zipsPipeline(object):
     def process_item(self, item, spider):
        return item

myspider.py

def step(self, response):
    zipfile = zipItem()
    zipfile['filecontent'] = response.body
    yield zipfile

我什至没有收到错误消息。但是蜘蛛结束了。有什么想法吗？

Answer 1

我看不到对minio服务器的任何引用，例如：

AWS_ENDPOINT_URL ='http://minio.example.com:9000'

Scrapy文件管道用于minio存储

1 个答案: