有没有办法预处理文本文件并跳过这些字符?
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte
答案 0 :(得分:10)
试试这个:
str.decode('utf-8',errors='ignore')
答案 1 :(得分:2)
我认为您的文本文件有一些特殊字符,因此'utf-8'无法解码。
您需要尝试使用'ISO-8859-1'而不是'utf-8'。像这样:
import sys
reload(sys).setdefaultencoding("ISO-8859-1")
# put your code here