如何在python中读取文件时修复此意外行为

时间:2015-12-07 21:18:33

标签: python file

我试图在python中逐行阅读这个简单的文件:

q(A) p(B)
q(z) ∼p(x)

然后从每一行中删除newline,然后将其添加到列表中。

lst = []
f = open("input.txt", 'r')

t1 = f.readline().rstrip('\n')
t2 = f.readline().rstrip('\n')

lst.append(t1)
lst.append(t2)

print lst

问题是,当我打印列表的内容时,我得到以下输出:

['q(A) p(B)', 'q(z) \xe2\x88\xbcp(x)']

我的文件包含波浪号~,我认为这会导致这种行为。奇怪的是,如果我要打印t1t2的内容,它们会正常显示,但打印lst的内容会显得不同

编辑:回答

好吧,我设法得到了我所期望的。如果有人遇到同样的问题,可以参考这个解决方案:

import codecs

f = codecs.open("input2.txt", 'r', encoding='utf8')

lst = []

t1 = f.readline().rstrip('\n')  
t2 = f.readline().rstrip('\n')  

res1 = ""
res2 = ""

for i in xrange(0,len(t1)):
    if ord(t1[i]) == 8764:
        res1 += "~"
    else:
        res1 += chr(ord(t1[i]))

for i in xrange(0,len(t2)):
    if ord(t2[i]) == 8764:
        res2 += "~"
    else:
        res2 += chr(ord(t2[i]))


lst.append(res1)
lst.append(res2)

print lst

现在输出如下:

['q(A) p(B)', 'q(z) ~p(x)']

1 个答案:

答案 0 :(得分:1)

该文件具有UTF-8编码数据。 tilda charater实际上由'\xe2\x88\xbc'字符串编码。当你打印它时,它看起来正常"因为某些东西正在将这些角色转换为它的等效的unicode字形。

使用codecs.opendecode函数获取预期数据。 E.g。

f = codecs.open("input.txt", 'r', 'utf8')

您应该看到u'\u223c'而不是'\xe2\x88\xbc'

另请注意,您的文件中包含代码点U+223C,但您可能打算使用U+007E