应用错误收集

时间：2019-06-03 16:25:18

标签： python data-science linguistics

我目前正在预处理大约100000个句子。为了改善我们的机器学习预测，我们可能应该对数据进行某种自动更正/拼写检查。但是到目前为止，我发现的大多数python实现都很慢。有没有一种有效且简便的方法来自动更正python中的整个文本文件？

我尝试在https://github.com/phatpiglet/autocorrect/中使用它，但是它花费的时间相对较长（我没有很好地实现它，但是我猜有人已经在某处完成了它）

答案 0 :(得分：1)

如@Vishnudev所述，建议使用SymSpellCompound

根据基准测试，它比其他拼写更正实施要快几个数量级。请参阅此graph

如果您阅读了autocorrect背后的代码，它会提到它是基于可用的here的Peter Norvig的实现

还尝试了基准测试spacy_hunspell，但无法将性能计时提高超过+ 15-2O％

其他改进途径：

祝你好运！