我正在构建一个文本分类器,将文本分类为主题。
在作为清理数据一部分的程序的第一阶段,我删除了所有非英语单词。为此,我使用 nltk.corpus.words.words()语料库。这个语料库的问题在于它删除了诸如Facebook,Instagram等“现代”英语单词。是否有人知道另一个更“现代”的语料库,我可以替换它或与现有语料库结合?
我更喜欢nltk语料库,但我愿意接受其他建议。
提前致谢
答案 0 :(得分:1)
重新思考你的方法。任何英文文本集都会有一个长尾"你以前没见过的单词。无论你收集的词典有多大,你都要删除那些不是非英语的词。"。为了什么目的?把它们留下来,它们不会破坏你的分类。
如果您的目标是删除非英文文本,请使用统计方法在句子或段落级别执行此操作,例如: ngram模型。它们运作良好,只需要很少的资源。
答案 1 :(得分:0)
我会使用维基百科,但是将它全部标记化是非常耗时的。幸运的是,它已经为你完成了。您可以使用Word2Vec model对1000亿字的维基百科进行培训,然后检查该单词是否在模型中。
我还发现了这个project,其中Chris制作了模型的300万字词汇的文本文件。
请注意,此项目的单词列表不包含一些停用词,因此从nltk和此列表中找到列表的并集是个好主意。