在聚类中,嘈杂,冗余和不相关的属性会产生哪些影响?他们最终是在帮助还是伤害集群?我知道它无法处理嘈杂的数据,但在其他两个数据上却不能确定。
答案 0 :(得分:1)
<强>噪声强>
随着噪声百分比的增加,许多聚类算法(如k均值,中值等分割等)的性能会下降。对于k均值聚类中的示例,由于异常值(数据与数据集大不相同),聚类质心会发生变化。该算法需要很长时间才能收敛,并且可能不会产生良好的聚类。
大多数聚类算法更喜欢在聚类之前从数据集中去除噪声(异常值) 有关详细信息:Effect of noise on the performance of clustering techniques
冗余数据(没有冗余属性,但冗余数据点)
这也会以负面方式影响聚类,但取决于聚类算法。如果任何算法考虑数据点的频率(例如采用聚类点的平均值,中位数等)则意味着,聚类的中值可能会有所不同。
通常,您不希望根据发生任何数据点的可能性来聚类数据。因此,如果任何数据点是冗余的,建议在群集之前删除它。
如果考虑冗余的属性(即共同相关的属性),它可能会也可能不会影响群集。取决于数据集的域。
无关属性
这也会以负面方式影响聚类。由于不相关的属性,聚类可能不会收敛。事实上,有时无关的属性被视为噪音。同样具有更高的维度,是维度的诅咒。因此,经常建议在聚类之前执行降维。
一些细节:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering