Question

我有一百个文件，根据chardet，每个文件都使用以下其中一个进行编码：

['UTF-8', 'ascii', 'ISO-8859-2', 'UTF-16LE', 'TIS-620', 'utf-8', 'SHIFT_JIS', 'ISO-8859-7']

所以我知道文件编码，因此我知道用什么编码打开文件。

我希望仅将所有文件转换为ascii。我还希望将-和'等不同版本的字符转换为简单的ascii等价物。例如，b"\xe2\x80\x94".decode("utf8")应转换为-。最重要的是文本易于阅读。我不想要don t，而是don't代替。{/ p>

我怎么能这样做？

我可以使用Python 2或3来解决这个问题。

这就是我对Python2的看法。我正在尝试检测那些以非ascii字符开头的行。

for file_name in os.listdir('.'):
        print(file_name)
        r = chardet.detect(open(file_name).read())
        charenc = r['encoding']
        with open(file_name,"r" ) as f:
            for line in f.readlines():
              if line.decode(charenc) != line.decode("ascii","ignore"):
                print(line.decode("ascii","ignore"))

这给了我以下例外：

    if line.decode(charenc) != line.decode("ascii","ignore"):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_16_le.py", line 16, in decode
    return codecs.utf_16_le_decode(input, errors, True)
UnicodeDecodeError: 'utf16' codec can't decode byte 0x0a in position 6: truncated data

Answer 1

不要将.readlines()二进制文件与多字节行一起使用。在UTF-16（little-endian）中，换行符被编码为两个字节0A（在ASCII中为换行符）和00（NULL）。 .readlines()在这两个字节的第一个上拆分，留下不完整的数据进行解码。

使用io库重新打开文件以便于解码：

import io

for file_name in os.listdir('.'):
    print(file_name)
    r = chardet.detect(open(file_name).read())
    charenc = r['encoding']
    with io.open(file_name, "r", encoding=charenc) as f:
        for line in f:
            line = line.encode("ascii", "ignore"):
            print line

要使用ASCII友好字符替换特定的unicode代码点，请使用字典映射代码点到codepoint或unicode字符串并首先调用line.translate()：

charmap = {
    0x2014: u'-',   # em dash
    0x201D: u'"',   # comma quotation mark, double
    # etc.
}

line = line.translate(charmap)

我使用十六进制整数文字来定义unicode代码点，以便在这里映射。字典中的值必须是unicode字符串，整数（代码点）或None才能完全删除该代码点。

将不同的编码转换为ascii

1 个答案: