我正在打开一个如下文件:http://pastebin.com/ucH5ayHa
尝试使用简单的python读取它:
f1 = open("goldstandard-answer-utf-8.txt", "r")
print f1.readline();
for line in f1:
print line
f1.close()
两条打印线都不打印整个文档。 readline和for循环分别打印:
</file>
这很奇怪。显然它与文档中的标签有关,但我尝试用lmxl etree或美丽的汤解析它都会产生类似的结果。有没有办法强制python打印行并忽略标记,如果这有意义的话?
编辑:(建议使用注释)预期输出与pastebin条目完全相同: 2028.htm.txt Mäkitalo,ÖstenMäkitalo,ÖstenMäkitalo,JessicaLindbäck,ÖstenMäkitalo,ÖstenMäkitalo,RobertBrännström 等...
答案 0 :(得分:0)
如果文件确实是用utf-8编码的,顾名思义,请尝试打开它:
import codecs
f = codecs.open('goldstandard-answer-utf-8.txt', 'r', encoding='utf-8')