我正在尝试读取语料库中包含的文本文件,并将文件的内容放入列表中。 我的代码如下:
corpus = PlaintextCorpusReader(root, '.*\.txt')
files = corpus.fileids()
print (files)
dox = list()
for f in files:
doc = corpus.raw(f)
dox.append(doc)
print(dox)
我反复遇到以下错误,
UnicodeDecodeError:' utf-8'编解码器不能将字节0xa3解码到位 257:无效的起始字节
如何防止此错误?是否有任何代码可用于从文本中删除utf-8编码字符?