r - SparkR快速从Dataframe中获取不同的值 - Thinbug

SparkR快速从Dataframe中获取不同的值

时间：2017-05-09 05:21:41

标签： r apache-spark analytics sparkr

我正在尝试使用以下语句从SparkDataframe中获取不同的值。

distVals <- collect(distinct(select(dataframeName, 'Column_name')))

要执行此声明，大约需要30-40分钟。有没有更好的方法来执行此操作？

收集完整数据框和收集不同的值也没有太大的时间差异。那么为什么建议不收集整个数据集呢？是否只是因为数据大小？

由于我必须获得不同类型的过滤数据，我正在寻找更快收集结果。

0 个答案:

没有答案