apache-spark - 过滤后如何重新分区数据帧？火花

我有以下代码：

plotOptions: {
  bubble: {
    minSize: '1%',
    maxSize: '20%',
    dataLabels : {
      style: {
        color: 'contrast',
        textOutline: 'none'
      }
    }
  },
  series: {
    dataLabels: {
      enabled: true,
      format: '{point.name}',
      
    },
    animation: false
  }
},

过滤器之前的 Df 有 500M 行，过滤器之后它有 10M 行。
我知道在这种情况下重新分区可以提高性能，因为数据大小发生了巨大变化，而分区数保持不变。
我的问题是如何选择要重新分区的列？
我有所有值之间唯一的键列和不明显的类别列
我应该制作 df = df.where(df.count>5) 吗？ (key 在 10M 中有 10M 个不同的值)
我应该做 df.repartition("key") 吗？（类别在 10M 中有 200k 个不同的值）

过滤后如何重新分区数据帧？火花

0 个答案: