标签: python python-2.7
我想删除不是英文的文字。我使用了nltk的单词语料库,但它比'附魔'库更糟糕。
创建我自己的文本字典需要大量的时间和思考。
附魔对专有名词区分大小写,例如:它会为firefox返回False,而对于Firefox则返回True,我的文本全部转换为小写。附魔图书馆能否以某种方式对专有名词不区分大小写?
编辑:我想到了这一点并观察到,对于任何有大写首字母的英语单词,附魔lib都会返回true。因此,我只需使用python的title()方法将每个单词的第一个字母转换为大写字母,结果就会改善。