最近我遇到了一个要求,我尝试使用pyspark regexp_extract更改python re,将pyspark regexp_extract更改为re的原因是火花更快。通过将处理速度与pyspark和re进行比较,我得出的结论是re比pyspark regexp_extract快。是否有任何导致pyspark regexp_extract变慢的特定原因。
预先感谢
答案 0 :(得分:0)
给出一个具体的答案可能需要更多的上下文,但是我可以从您所说的内容中得出以下几点:
我认为这取决于数据的大小以及分区中的火花如何。由于spark正在并行化,可能不是在大量数据中,常规的python函数将运行得更快,但是在大量数据中并行化会更方便。