从语料库中删除非ASCII

时间:2014-11-04 07:14:03

标签: python unicode ascii nltk information-retrieval

我正在为我的项目使用NLTK。但是,如果存在像'•'这样的非ascii词。 NLTK无法对其进行标记。 我正在使用nltk.word_tokenize作为标记器。 如何从整个语料库中删除这些单词或使标记器知道这些单词?

1 个答案:

答案 0 :(得分:5)

使用以下代码从语料库中删除 nonascii

ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
        line=line.strip().decode("ascii","ignore").encode("ascii")
        if line=="":continue
        op.write(line)
ip.close()
op.close()