如何在python中加速jaro-winkler进程(多线程?pyspark?)

时间:2018-11-11 16:52:58

标签: python python-3.x multithreading pyspark multiprocessing

我正在使用jaro-winkler对python 3中的文本相似性进行评分。我的比较集相对较大(> 470,000行)。因此,每次循环都需要为这470,000个项目的每个字符串计算分数,这使我的过程非常缓慢。

无论如何,我可以加快流程吗?我正在考虑使用多线程,多处理或pyspark。但是我不确定该怎么做。有什么建议么?预先感谢。

0 个答案:

没有答案