从语料库中读取文本时的UnicodeDecodeError(Python 3.5)

时间:2017-10-30 05:56:08

标签: python unicode nltk python-unicode corpus

我正在尝试读取语料库中包含的文本文件,并将文件的内容放入列表中。 我的代码如下:

corpus = PlaintextCorpusReader(root, '.*\.txt')
files = corpus.fileids()

print (files)
dox = list()

for f in files:
    doc = corpus.raw(f)
    dox.append(doc)

print(dox)

我反复遇到以下错误,

  

UnicodeDecodeError:' utf-8'编解码器不能将字节0xa3解码到位   257:无效的起始字节

如何防止此错误?是否有任何代码可用于从文本中删除utf-8编码字符?

0 个答案:

没有答案