我有一些客户通过cluster_id聚集成组,数据量巨大(因此性能是一个问题)。我所拥有的最简单的形式如下表所示:
cust_id | CLUSTER_ID
---------- | -----------
1 | 1
2 | 1
3 | 1
2 | 2
1 | 2
2 | 3
4 | 3
1 | 4
我希望这些群集拥有最多的客户,以便不会删除客户。换句话说,我想删除作为另一个集群子集的集群的记录。 在上面的示例中,输出表应如下所示:
cust_id cluster_Id
-------- | ----------
1 | 1
2 | 1
3 | 1
2 | 3
4 | 3