我试图从网站上废弃一些PDF,而不是让Scrapy命名这些文件,我想用这些从网站上抓取的标题来命名这些PDF。所以我定义ReportsPDFPipeline
并覆盖file_path
函数。
class ReportsPDFPipeline(FilesPipeline):
def file_path(self, request, response = None, info = None):
#print("我被调用了")
file_guid = request.meta["title"]
return "full/%s" % (file_guid)
问题是title
中有一些unicode(中文)字符,因此没有PDF文件存储在此路径中。
然后我尝试了一个简单的案例:
class ReportsPDFPipeline(FilesPipeline):
def file_path(self, request, response = None, info = None):
#print("我被调用了")
return u"full/" + u"我被调用了" + u".PDF"
这一次,文件可以重命名和存储,但是有一些像这样凌乱的字符:
我应该怎么做才能正确重命名文件?