应用错误收集

我有一个Spark数据框，正在使用sparklyr。我想使用诸如n_distinct（在dplyr上可用）和match之类的函数（例如，在y列中查找x列的元素e的索引）。现在我了解到，它实际上并不符合并行计算的思想，因为如果分别处理数据帧的不同部分，则很难使用n_distinct和match之类的功能。

但是我有一个名为group的变量，它定义了组，并且只在这些组中要使用n_distinct和match；因此，如果我能找到一种方法来告诉Spark如何将不同的行分配给不同的集群（这是正确的词吗？）并在组中使用函数，那么它就可以工作。

有可能这样做吗？

谢谢您的帮助！

Sparklyr：强制分配使用n_distinct，match之类的函数

0 个答案: