Question

有没有办法预处理文本文件并跳过这些字符？

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte

Answer 1

试试这个：

str.decode('utf-8',errors='ignore')

Answer 2

我认为您的文本文件有一些特殊字符，因此'utf-8'无法解码。

您需要尝试使用'ISO-8859-1'而不是'utf-8'。像这样：

   import sys
   reload(sys).setdefaultencoding("ISO-8859-1")

   # put your code here