使用python对整个文本文件进行有效的自动更正?

时间:2019-06-03 16:25:18

标签: python data-science linguistics

我目前正在预处理大约100000个句子。 为了改善我们的机器学习预测,我们可能应该对数据进行某种自动更正/拼写检查。但是到目前为止,我发现的大多数python实现都很慢。有没有一种有效且简便的方法来自动更正python中的整个文本文件?

我尝试在https://github.com/phatpiglet/autocorrect/中使用它,但是它花费的时间相对较长(我没有很好地实现它,但是我猜有人已经在某处完成了它)

1 个答案:

答案 0 :(得分:1)

如@Vishnudev所述,建议使用SymSpellCompound

根据基准测试,它比其他拼写更正实施要快几个数量级。 请参阅此graph

如果您阅读了autocorrect背后的代码,它会提到它是基于可用的here的Peter Norvig的实现

还尝试了基准测试spacy_hunspell,但无法将性能计时提高超过+ 15-2O%

其他改进途径:

  • 利用python多处理模块。
  • 如果您使用的是熊猫,请考虑使用Dask框架进行并行处理。

祝你好运!