Sparklyr:强制分配使用n_distinct,match之类的函数

时间:2018-07-02 17:58:56

标签: r apache-spark sparklyr

我有一个Spark数据框,正在使用sparklyr。我想使用诸如n_distinct(在dplyr上可用)和match之类的函数(例如,在y列中查找x列的元素e的索引)。现在我了解到,它实际上并不符合并行计算的思想,因为如果分别处理数据帧的不同部分,则很难使用n_distinct和match之类的功能。

但是我有一个名为group的变量,它定义了组,并且只在这些组中要使用n_distinctmatch;因此,如果我能找到一种方法来告诉Spark如何将不同的行分配给不同的集群(这是正确的词吗?)并在组中使用函数,那么它就可以工作。

有可能这样做吗?

谢谢您的帮助!

0 个答案:

没有答案