标签: autocomplete machine-learning nlp nltk text-analysis
我在移动平台上有大约6GB大小的文档语料库,主要是用户生成的内容。由于这个语料库的起源性质,它充斥着拼写错误,缩写和截断的单词。有没有办法可以将这些单词自动更正为最近的英语单词?
答案 0 :(得分:2)
这看起来很有趣,看到你用机器学习标记了你的问题:
http://norvig.com/spell-correct.html
这是一本引人入胜的读物。另一方面,如果你不想修补,一个更好的人可能是附魔,看看
http://pythonhosted.org/pyenchant/api/enchant.html