Python:如何将shutil.copy()与unicode文件名一起使用

时间:2017-09-20 14:29:35

标签: python unicode

所以我几天来一直在反对这个问题,我无法弄明白。我已经阅读了thisthisthis,觉得我必须遗漏一些东西。

我尝试使用以下代码将带有复杂unicode标题的简单文本文件复制到临时文件夹中:

self._temp_path = tempfile.mkdtemp()
self.src = os.path.join(self._temp_path, 'src')
os.makedirs(self.src)
self.dst = os.path.join(self._temp_path, 'dst')
os.makedirs(self.dst)
self.dirname = dirname = os.path.join(os.path.dirname(__file__), 'testfiles')
f = u'file-\xe3\x82\xa8\xe3\x83\xb3\xe3\x83\x89\xe3\x83\xac\xe3\x82\xb9.txt'
src = os.path.join(dirname, f)
dst = os.path.join(self.src, f)
shutil.copy2(src, dst)

执行测试时收到以下消息:

s = '/tmp/tmpc1gzwf/src/file-ã¨ã³ãã¬ã¹.txt'
>           st = os.stat(s)
E           UnicodeEncodeError: 'ascii' codec can't encode characters in position 24-38: ordinal not in range(128)

我尝试过使用shutil.copy和shutil.copy2,它们产生了相同的结果。我也试过改变:

shutil.copy2(src, dst)

为:

shutil.copy2(src.encode('utf-8'), dst.encode('utf-8'))

但由于编码损坏了文件名,导致出现此错误消息:

src = '/home/phil/projects/unicode_copy/tests/testfiles/file-\xc3\xa3\xc2\x82\xc2\xa8\xc3\xa3\xc2\x83\xc2\xb3\xc3\xa3\xc2\x83\xc2\x89\xc3\xa3\xc2\x83\xc2\xac\xc3\xa3\xc2\x82\xc2\xb9.txt'
dst = '/tmp/tmpCsb3qW/src/file-\xc3\xa3\xc2\x82\xc2\xa8\xc3\xa3\xc2\x83\xc2\xb3\xc3\xa3\xc2\x83\xc2\x89\xc3\xa3\xc2\x83\xc2\xac\xc3\xa3\xc2\x82\xc2\xb9.txt'
def copyfile(src, dst):
...
>       with open(src, 'rb') as fsrc:
E       IOError: [Errno 2] No such file or directory: '/home/phil/projects/unicode_copy/tests/testfiles/file-\xc3\xa3\xc2\x82\xc2\xa8\xc3\xa3\xc2\x83\xc2\xb3\xc3\xa3\xc2\x83\xc2\x89\xc3\xa3\xc2\x83\xc2\xac\xc3\xa3\xc2\x82\xc2\xb9.txt'

在代码中的各个点尝试了编码()和解码()的许多其他组合之后,我已经放弃了。声明unicode文件名并将其传递给shutil.copy的正确方法是什么?

1 个答案:

答案 0 :(得分:2)

我根据您的系统上的代码快速运行以下代码,它似乎工作正常:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import os
import shutil
import tempfile

from pathlib import Path


class Code():

    def run(self):
        self._temp_path = Path(tempfile.mkdtemp())
        self.dstdir = self._temp_path / 'dst'
        os.makedirs(self.dstdir)

        self.srcdir = Path(os.path.dirname(__file__)) / 'testfiles'
        filename = u'file-\xe3\x82\xa8\xe3\x83\xb3\xe3\x83\x89\xe3\x83\xac\xe3\x82\xb9.txt'

        self.srcpath = self.srcdir / filename
        self.dstpath = self.dstdir / filename

        with open(self.srcpath, 'w') as f:
            f.write('test')

        shutil.copy2(self.srcpath, self.dstpath)


if __name__ == '__main__':
    code = Code()
    code.run()
    print(code.dstpath)

示例输出为/tmp/tmpgqwktb_v/dst/file-ã¨ã³ãã¬ã¹.txt

可能的原因是:

  • 我正在使用Python3,它具有明显更好的unicode支持
  • 我在en_GB.UTF-8语言环境中运行Linux
  • 我的脚本的第二行,声明了源代码的编码

也许与环境的差异可以解释您的错误。

希望这有帮助!