假设有一个包含多少行的数据集。
我需要找出异质性,即
distinct number of rows divide by total number of rows.
请帮我用spark查询来执行相同的操作。
答案 0 :(得分:1)
数据集和数据框支持在数据集中查找不同行的distinct函数。
基本上你需要做
val heterogeneity = dataset.distinct.count / dataset.count
唯一的问题是,如果数据集很大,那么分离可能很昂贵,您可能需要正确设置spark shuffle分区。