我有一个Spark数据框,正在使用sparklyr。我想使用诸如n_distinct
(在dplyr上可用)和match
之类的函数(例如,在y列中查找x列的元素e的索引)。现在我了解到,它实际上并不符合并行计算的思想,因为如果分别处理数据帧的不同部分,则很难使用n_distinct和match之类的功能。
但是我有一个名为group
的变量,它定义了组,并且只在这些组中要使用n_distinct
和match
;因此,如果我能找到一种方法来告诉Spark如何将不同的行分配给不同的集群(这是正确的词吗?)并在组中使用函数,那么它就可以工作。
有可能这样做吗?
谢谢您的帮助!