应用错误收集

如何在python中加速jaro-winkler进程（多线程？pyspark？）

时间：2018-11-11 16:52:58

标签： python python-3.x multithreading pyspark multiprocessing

我正在使用jaro-winkler对python 3中的文本相似性进行评分。我的比较集相对较大（> 470,000行）。因此，每次循环都需要为这470,000个项目的每个字符串计算分数，这使我的过程非常缓慢。

无论如何，我可以加快流程吗？我正在考虑使用多线程，多处理或pyspark。但是我不确定该怎么做。有什么建议么？预先感谢。

0 个答案:

没有答案