unicode decode error:如何跳过无效字符

时间:2014-12-12 23:47:54

标签: python

有没有办法预处理文本文件并跳过这些字符?

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte

2 个答案:

答案 0 :(得分:10)

试试这个:

str.decode('utf-8',errors='ignore')

答案 1 :(得分:2)

我认为您的文本文件有一些特殊字符,因此'utf-8'无法解码。

您需要尝试使用'ISO-8859-1'而不是'utf-8'。像这样:

   import sys
   reload(sys).setdefaultencoding("ISO-8859-1")

   # put your code here