Question

我正在打开一个如下文件：http://pastebin.com/ucH5ayHa

尝试使用简单的python读取它：

f1 = open("goldstandard-answer-utf-8.txt", "r")

print f1.readline();

for line in f1:
    print line

f1.close()

两条打印线都不打印整个文档。 readline和for循环分别打印：

</file>

这很奇怪。显然它与文档中的标签有关，但我尝试用lmxl etree或美丽的汤解析它都会产生类似的结果。有没有办法强制python打印行并忽略标记，如果这有意义的话？

编辑：（建议使用注释）预期输出与pastebin条目完全相同： 2028.htm.txt Mäkitalo，ÖstenMäkitalo，ÖstenMäkitalo，JessicaLindbäck，ÖstenMäkitalo，ÖstenMäkitalo，RobertBrännström 等...

Answer 1

如果文件确实是用utf-8编码的，顾名思义，请尝试打开它：

import codecs

f = codecs.open('goldstandard-answer-utf-8.txt', 'r', encoding='utf-8')

在python中读取文本奇怪的错误

1 个答案: