我目前正在预处理大约100000个句子。 为了改善我们的机器学习预测,我们可能应该对数据进行某种自动更正/拼写检查。但是到目前为止,我发现的大多数python实现都很慢。有没有一种有效且简便的方法来自动更正python中的整个文本文件?
我尝试在https://github.com/phatpiglet/autocorrect/中使用它,但是它花费的时间相对较长(我没有很好地实现它,但是我猜有人已经在某处完成了它)
答案 0 :(得分:1)
如@Vishnudev所述,建议使用SymSpellCompound
根据基准测试,它比其他拼写更正实施要快几个数量级。 请参阅此graph
如果您阅读了autocorrect背后的代码,它会提到它是基于可用的here的Peter Norvig的实现
还尝试了基准测试spacy_hunspell,但无法将性能计时提高超过+ 15-2O%
其他改进途径:
祝你好运!