应用错误收集

找到'现代'nltk单词语料库

时间：2017-06-14 16:21:47

标签： python nltk corpus

我正在构建一个文本分类器，将文本分类为主题。

在作为清理数据一部分的程序的第一阶段，我删除了所有非英语单词。为此，我使用 nltk.corpus.words.words（）语料库。这个语料库的问题在于它删除了诸如Facebook，Instagram等“现代”英语单词。是否有人知道另一个更“现代”的语料库，我可以替换它或与现有语料库结合？

我更喜欢nltk语料库，但我愿意接受其他建议。

提前致谢

2 个答案:

答案 0 :(得分：1)

重新思考你的方法。任何英文文本集都会有一个长尾＆＃34;你以前没见过的单词。无论你收集的词典有多大，你都要删除那些不是非英语的词。＆＃34;。为了什么目的？把它们留下来，它们不会破坏你的分类。

如果您的目标是删除非英文文本，请使用统计方法在句子或段落级别执行此操作，例如： ngram模型。它们运作良好，只需要很少的资源。

答案 1 :(得分：0)

我会使用维基百科，但是将它全部标记化是非常耗时的。幸运的是，它已经为你完成了。您可以使用Word2Vec model对1000亿字的维基百科进行培训，然后检查该单词是否在模型中。

我还发现了这个project，其中Chris制作了模型的300万字词汇的文本文件。

请注意，此项目的单词列表不包含一些停用词，因此从nltk和此列表中找到列表的并集是个好主意。