标签: r apache-spark analytics sparkr
我正在尝试使用以下语句从SparkDataframe中获取不同的值。
distVals <- collect(distinct(select(dataframeName, 'Column_name')))
要执行此声明,大约需要30-40分钟。有没有更好的方法来执行此操作?
收集完整数据框和收集不同的值也没有太大的时间差异。那么为什么建议不收集整个数据集呢?是否只是因为数据大小?
由于我必须获得不同类型的过滤数据,我正在寻找更快收集结果。