我正在尝试阅读本地的一些unicode文件。如何在使用列表时读取unicode文件?我已经阅读了python文档,以及大量的stackoverflow Q& A,它已经回答了我的许多其他问题,但我找不到这个问题的答案。
感谢任何帮助。
编辑:对不起,我的文件是utf-8。
答案 0 :(得分:2)
您可以使用
打开UTF-8编码的文件import codecs
with codecs.open("myutf8file.txt", encoding="utf-8-sig") as infile:
for line in infile:
# do something with line
请注意,codecs.open()
未将\r\n
翻译为\n
,因此,如果您使用的是Windows文件,则需要将其考虑在内。
utf-8-sig
编解码器将读取带有或不带BOM (Byte Order Mark)的UTF-8文件(如果存在,则将其删除)。在撰写时,您应该使用utf-8
作为编解码器,因为the Unicode standard recommends against writing a BOM in UTF-8 files。