打开巨大的文本文件,unicode问题

时间:2013-08-11 20:43:06

标签: python text unicode python-3.x

我正在尝试打开文本文件并打印它的第一行。

我的代码是:

dataFile = open('data/AllData_2000001_3000000.txt', 'r', encoding="latin-1")
print(dataFile.read(1000))

输入

The bug is hitting

我的输出是

ÿþT h e  b u g  i s  h i t t i n g

iso-8859-1 给出相同的结果。
当我尝试 utf-8 时,我收到以下错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

我的错误是什么?
谢谢!

1 个答案:

答案 0 :(得分:4)

ÿþ可能是UTF-16文件中的BOM。尝试在打开时将其指定为编码。