Python从本地文件中读取unicode

时间:2013-12-31 07:15:27

标签: python python-2.7 unicode

我正在尝试阅读本地的一些unicode文件。如何在使用列表时读取unicode文件?我已经阅读了python文档,以及大量的stackoverflow Q& A,它已经回答了我的许多其他问题,但我找不到这个问题的答案。

感谢任何帮助。

编辑:对不起,我的文件是utf-8。

1 个答案:

答案 0 :(得分:2)

您可以使用

打开UTF-8编码的文件
import codecs
with codecs.open("myutf8file.txt", encoding="utf-8-sig") as infile:
    for line in infile:
        # do something with line

请注意,codecs.open()未将\r\n翻译为\n,因此,如果您使用的是Windows文件,则需要将其考虑在内。

utf-8-sig编解码器将读取带有或不带BOM (Byte Order Mark)的UTF-8文件(如果存在,则将其删除)。在撰写时,您应该使用utf-8作为编解码器,因为the Unicode standard recommends against writing a BOM in UTF-8 files