自动更正文档语料库

时间:2014-03-18 22:14:07

标签: autocomplete machine-learning nlp nltk text-analysis

我在移动平台上有大约6GB大小的文档语料库,主要是用户生成的内容。由于这个语料库的起源性质,它充斥着拼写错误,缩写和截断的单词。有没有办法可以将这些单词自动更正为最近的英语单词?

1 个答案:

答案 0 :(得分:2)

这看起来很有趣,看到你用机器学习标记了你的问题:

http://norvig.com/spell-correct.html

这是一本引人入胜的读物。另一方面,如果你不想修补,一个更好的人可能是附魔,看看

http://pythonhosted.org/pyenchant/api/enchant.html