Scrapy:将下载的文件名重命名为带有unicode的字符串,导致混乱的字符

时间:2017-11-06 11:22:52

标签: python unicode scrapy python-2.x

我试图从网站上废弃一些PDF,而不是让Scrapy命名这些文件,我想用这些从网站上抓取的标题来命名这些PDF。所以我定义ReportsPDFPipeline并覆盖file_path函数。

class ReportsPDFPipeline(FilesPipeline):
    def file_path(self, request, response = None, info = None):
        #print("我被调用了")
        file_guid = request.meta["title"]
        return "full/%s" % (file_guid)

问题是title中有一些unicode(中文)字符,因此没有PDF文件存储在此路径中。

然后我尝试了一个简单的案例:

class ReportsPDFPipeline(FilesPipeline):
    def file_path(self, request, response = None, info = None):
        #print("我被调用了")
        return u"full/" + u"我被调用了" + u".PDF"

这一次,文件可以重命名和存储,但是有一些像这样凌乱的字符:

enter image description here

我应该怎么做才能正确重命名文件?

0 个答案:

没有答案