我正在解析大量(90000)csv文件。一些文件从pdf转换为文本。因此,它们以怪异的角色形式存在很多噪音。例如,Cachï¿其中一些文件已在线转换,一些通过pdfminer转换。现在,在我的程序中,我解析文件并删除停用词。
cleanedRow = ' '.join([word for word in row[1].split() if word not in stopWrds])
但是由于这些奇怪的编码/解码问题,我的程序失败了。我无法删除搜索90000文件的所有此类字符。该程序抛出以下错误
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)
在python中有没有优雅的方法可以忽略这些字符?非常感谢任何帮助。感谢