我有以下代码:
plotOptions: {
bubble: {
minSize: '1%',
maxSize: '20%',
dataLabels : {
style: {
color: 'contrast',
textOutline: 'none'
}
}
},
series: {
dataLabels: {
enabled: true,
format: '{point.name}',
},
animation: false
}
},
过滤器之前的 Df 有 500M 行,过滤器之后它有 10M 行。
我知道在这种情况下重新分区可以提高性能,因为数据大小发生了巨大变化,而分区数保持不变。
我的问题是如何选择要重新分区的列?
我有所有值之间唯一的键列和不明显的类别列
我应该制作 df = df.where(df.count>5)
吗? (key 在 10M 中有 10M 个不同的值)
我应该做 df.repartition("key")
吗? (类别在 10M 中有 200k 个不同的值)