为什么Python String连接与俄语文本一起使用但string.format()不能

时间:2015-05-26 21:11:00

标签: python csv character-encoding windows-1251

我试图解析(并转义)以Windows-1251字符编码存储的CSV文件的行。使用this excellent answer来处理这种编码我最后用这一行来测试输出,出于某种原因,这有效:

print(row[0]+','+row[1])

对外输出:

Тяжелый Уборщик Обязанности,1 литр

虽然这条线不起作用:

print("{0},{1}".format(*row))

输出此错误:

Name,Variant

Traceback (most recent call last):
  File "Russian.py", line 26, in <module>
    print("{0},{1}".format(*row))
UnicodeEncodeError: 'ascii' codec can't encode characters in position 2-3: ordinal not in range(128)

以下是CSV的前两行:

Name,Variant
Тяжелый Уборщик Обязанности,1 литр

如果有帮助,这里是Russian.py的完整来源:

import csv
import cgi
from chardet.universaldetector import UniversalDetector
chardet_detector = UniversalDetector()

def charset_detect(f, chunk_size=4096):
    global chardet_detector
    chardet_detector.reset()
    while 1:
        chunk = f.read(chunk_size)
        if not chunk: break
        chardet_detector.feed(chunk)
        if chardet_detector.done: break
    chardet_detector.close()
    return chardet_detector.result

with open('Russian.csv') as csv_file:
    cd_result = charset_detect(csv_file)
    encoding = cd_result['encoding']
    csv_file.seek(0)
    csv_reader = csv.reader(csv_file)
    for bytes_row in csv_reader:
        row = [x.decode(encoding) for x in bytes_row]
        if len(row) >= 6:
            #print(row[0]+','+row[1])
            print("{0},{1}".format(*row))

3 个答案:

答案 0 :(得分:6)

列表中的字符串可能已经是unicode,因此您没有遇到问题。

print(row[0]+','+row[1])
Тяжелый Уборщик Обязанности,1 литр

但是我们正在尝试将unicode添加到普通字符串中!这就是你获得UnicodeEncodeError的原因。

print("{0},{1}".format(*row))

所以只需将其更改为:

print(u"{0}, {1}".format(*row))

答案 1 :(得分:3)

您正在使用str.format()隐式地将unicode()转换为str()。必须这样做才能将值插入到提供的模板中。

改为使用unicode.format()

print(u"{0},{1}".format(*row))

请注意格式文字前的uunicode.format()必须解码 str输入以适应生成的Unicode输出。

另一方面,连接可以隐式解码以产生最终的unicode()对象结果。如果您的','值包含非ASCII字节,则隐式解码也会失败。

故事的道德:在处理文本时,在整个代码中使用Unicode字符串文字。

答案 2 :(得分:0)

+操作数在unicode字符串和str字符串之间正常工作。另一方面,str.format不接受unicode字符串作为参数。

因此,您只需使用以下内容替换有问题的行:

print(u"{0},{1}".format(*row))

这应该可以解决问题。