标签: apache-spark pyspark apache-spark-sql
我无法找到确认"从表格中选择不同列的任何来源"在火花数据框上可以找到数据框的所有分区中所有记录的不同值。我知道的方式是,spark基于哈希值对数据进行洗牌,然后在必须执行不同查询时删除冗余记录。但它是否多次这样做以确保删除所有重复项?
有人可以确认Distinct查询跨分区而不仅仅是在分区级别上工作吗?