SparkR快速从Dataframe中获取不同的值

时间:2017-05-09 05:21:41

标签: r apache-spark analytics sparkr

我正在尝试使用以下语句从SparkDataframe中获取不同的值。

distVals <- collect(distinct(select(dataframeName, 'Column_name')))

要执行此声明,大约需要30-40分钟。有没有更好的方法来执行此操作?

收集完整数据框和收集不同的值也没有太大的时间差异。那么为什么建议不收集整个数据集呢?是否只是因为数据大小?

由于我必须获得不同类型的过滤数据,我正在寻找更快收集结果。

0 个答案:

没有答案