应用错误收集

spark sql是否在所有分区上都有效？

时间：2017-10-18 21:12:20

标签： apache-spark pyspark apache-spark-sql

我无法找到确认＆＃34;从表格中选择不同列的任何来源＆＃34;在火花数据框上可以找到数据框的所有分区中所有记录的不同值。我知道的方式是，spark基于哈希值对数据进行洗牌，然后在必须执行不同查询时删除冗余记录。但它是否多次这样做以确保删除所有重复项？

有人可以确认Distinct查询跨分区而不仅仅是在分区级别上工作吗？

0 个答案:

没有答案