我有一个具有100行和10,000个特征的熊猫数据框。我想通过使用皮尔逊相关性作为sklearn.cluster.FeatureAgglomeration中的相似性参数来对数据进行分层聚类。
到目前为止,我已经尝试了两种方法使其工作: 第一个是:
feature_agglomator = FeatureAgglomeration(n_clusters=10, affinity=np.corrcoef, linkage='average')
第二个:
from scipy.spatial.distance import correlation
feature_agglomator = FeatureAgglomeration(n_clusters=10,affinity='correlation', linkage='average')
运行后:
feature_agglomator.fit_transform(X)
两者都以相同的例外结尾:
ValueError: The condensed distance matrix must contain only finite values.
该如何正常工作?