如何处理Python中的编码错误

时间:2017-02-23 08:17:10

标签: python python-2.7 encoding nltk python-unicode

我正在解析大量(90000)csv文件。一些文件从pdf转换为文本。因此,它们以怪异的角色形式存在很多噪音。例如,Cachï¿其中一些文件已在线转换,一些通过pdfminer转换。现在,在我的程序中,我解析文件并删除停用词。

cleanedRow = ' '.join([word for word in row[1].split() if word not in stopWrds])

但是由于这些奇怪的编码/解码问题,我的程序失败了。我无法删除搜索90000文件的所有此类字符。该程序抛出以下错误

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)

在python中有没有优雅的方法可以忽略这些字符?非常感谢任何帮助。感谢

0 个答案:

没有答案