在tar取消归档后,使用西里尔字母解码cp866编码的文件名

时间:2016-12-25 20:46:20

标签: encoding tar

我有几个文件是通过使用macOS下的gnu tar取消归档某些tar存档而获得的。由于使用西里尔字母,这些文件的名称类似于%8A%AE%AD%E1⠭⨭ - %84%87 %FCML1.ipynb。似乎%8A等等是cp866代码,但也有一些unicode字符呈现(如),它们似乎是某些字节序列的unicode表示,意外地是有效的utf-8代码。我想将所有内容解码为unicode / UTF-8,以便能够重命名我的文件。我该怎么办?

1 个答案:

答案 0 :(得分:0)

这个Python函数可以提供帮助:

def decode_escaped_cp866(s):
    out = []
    for token in re.finditer(r"%([0-9A-F]{2})|(.)", s):
        if token.group(1) is not None:
            out.append(bytes([int(token.group(1), 16)]))
        elif token.group(2) is not None:
            out.append(token.group(2).encode('utf-8'))
    return b"".join(out).decode('cp866')

print(decode_escaped_cp866("%8A%AE%AD%E1⠭⨭ - %84%87 %FCML1.ipynb"))
# Константин - ДЗ №ML1.ipynb