我有来自各种来源的数据。应该是US ASCII
。但是似乎并不是每个人都遵守,有些人使用了不同的编码。现在,我需要读取收集在一个文件中的所有数据,我需要使用python读取该文件。
当我使用时:
inFile = open(“ myfile.txt”,“ r”)
我收到错误消息:
文件
中的“ myprog.py”,第14行for i in inFile: File "/usr/local/lib/python3.6/codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position
36:无效的连续字节
当我使用时:
inFile = open("myfile.txt","r", encoding="iso-8859-1")
我没有得到错误。
问题1:iso-8859-1
个字符是否包含US ASCII
个字符,并且不会对其进行任何更改?我不想错过任何数据或进行任何操作。同时,我想使用不会产生错误的编码。
在打开的代码语句中使用errors =“ ignore”可能会导致数据处理。这就是为什么我不喜欢它。