应用错误收集

从语料库中读取文本时的UnicodeDecodeError（Python 3.5）

时间：2017-10-30 05:56:08

标签： python unicode nltk python-unicode corpus

我正在尝试读取语料库中包含的文本文件，并将文件的内容放入列表中。我的代码如下：

corpus = PlaintextCorpusReader(root, '.*\.txt')
files = corpus.fileids()

print (files)
dox = list()

for f in files:
    doc = corpus.raw(f)
    dox.append(doc)

print(dox)

我反复遇到以下错误，

UnicodeDecodeError：＆＃39; utf-8＆＃39;编解码器不能将字节0xa3解码到位 257：无效的起始字节

如何防止此错误？是否有任何代码可用于从文本中删除utf-8编码字符？

0 个答案:

没有答案