我正在用python3写一个带有scrapy的蜘蛛,我用了很短的时间才开始scrapy。我正在捕获一个网站的数据,几分钟后,该网站可能使我获得302
状态,并重定向到另一个URL进行验证。所以我想将网址保存到文件中。
例如,https://www.test.com/article?id=123
是我要请求的内容,然后它向我302
重定向到https://www.test.com/vrcode
我想将https://www.test.com/article?id=123
保存到文件中,该怎么办?
class CatchData(scrapy.Spider):
name = 'test'
allowed_domains = ['test.com']
start_urls = ['test.com/article?id=1',
'test.com/article?id=2',
# ...
]
def parse(self, response):
item = LocationItem()
item['article'] = response.xpath('...')
yield item
我从How to get the scrapy failure URLs?找到了答案
但这是六年前的一个答案,我想知道还有更简单的方法可以做到这一点
答案 0 :(得分:0)
with open(file_name, 'w', encoding="utf-8") as f:
f.write(str(item))