为什么在与python re比较时火花regexp_extract太慢

时间:2020-09-11 15:57:24

标签: python-3.x pyspark apache-spark-sql re

最近我遇到了一个要求,我尝试使用pyspark regexp_extract更改python re,将pyspark regexp_extract更改为re的原因是火花更快。通过将处理速度与pyspark和re进行比较,我得出的结论是re比pyspark regexp_extract快。是否有任何导致pyspark regexp_extract变慢的特定原因。

预先感谢

1 个答案:

答案 0 :(得分:0)

给出一个具体的答案可能需要更多的上下文,但是我可以从您所说的内容中得出以下几点:

我认为这取决于数据的大小以及分区中的火花如何。由于spark正在并行化,可能不是在大量数据中,常规的python函数将运行得更快,但是在大量数据中并行化会更方便。