标签: python python-3.x multithreading pyspark multiprocessing
我正在使用jaro-winkler对python 3中的文本相似性进行评分。我的比较集相对较大(> 470,000行)。因此,每次循环都需要为这470,000个项目的每个字符串计算分数,这使我的过程非常缓慢。
无论如何,我可以加快流程吗?我正在考虑使用多线程,多处理或pyspark。但是我不确定该怎么做。有什么建议么?预先感谢。