使用RDD或数据帧划分spark中的操作

时间:2018-01-03 05:29:17

标签: apache-spark

假设有一个包含多少行的数据集。

我需要找出异质性,即

distinct number of rows divide by total number of rows.

请帮我用spark查询来执行相同的操作。

1 个答案:

答案 0 :(得分:1)

数据集和数据框支持在数据集中查找不同行的distinct函数。

基本上你需要做

val heterogeneity = dataset.distinct.count / dataset.count

唯一的问题是,如果数据集很大,那么分离可能很昂贵,您可能需要正确设置spark shuffle分区。