Spark:更好的单个或分离过滤器?

时间:2016-02-19 08:51:12

标签: apache-spark

我在过滤器中应用了不同的条件。从性能的角度来看,在分离的过滤器中拆分它们有什么具体的优势吗?

要明确它是更好的:

过滤器(condition1&& condition2)

或者

filter(condition1).filter(condition2)

1 个答案:

答案 0 :(得分:2)

使用一个接一个的过滤器将按照火花分组到一个阶段,因此它将与将所有内容放入一个过滤器一样高效。

我能看到将操作拆分为两个连续过滤器的唯一原因是为了便于阅读和分离问题。但我想你可以通过为你的条件使用单独的功能来做到这一点。