Sklearn聚集聚类自定义亲和力

时间:2018-12-19 10:20:07

标签: python scikit-learn hierarchical-clustering sklearn-pandas

我试图将聚集聚类与自定义距离度量(即亲和力)结合使用,因为我想通过序列相似性而不是无意义的欧几里德距离对整数序列进行聚类。

我的数据看起来像这样

>> dat.values 

array([[860, 261, 240, ..., 300, 241,   1],
   [860, 840, 860, ..., 860, 240,   1],
   [260, 860, 260, ..., 260, 220,   1],
   ...,
   [260, 260, 260, ..., 260, 260,   1],
   [260, 860, 260, ..., 840, 860,   1],
   [280, 240, 241, ..., 240, 260,   1]]) 

我创建了以下相似性函数

def sim(x, y): 
    return np.sum(np.equal(np.array(x), np.array(y)))/len(x)

所以我只用numpy返回两个序列中的%匹配值并进行以下调用

cluster = AgglomerativeClustering(n_clusters=5, affinity=sim, linkage='average')
cluster.fit(dat.values)

但是我说错了

TypeError: sim() missing 1 required positional argument: 'y'

我不确定为什么会出现此错误;我以为该函数会将行对成簇,因此将传递每个必需的参数。

任何对此的帮助将不胜感激

2 个答案:

答案 0 :(得分:3)

'affinity'作为可调用对象需要单个输入X(这是您的要素或观察矩阵),然后调用其中的所有点(样本)之间的距离。

因此,您需要将方法修改为:

# Your method to calculate distance between two samples
def sim(x, y): 
    return np.sum(np.equal(np.array(x), np.array(y)))/len(x)


# Method to calculate distances between all sample pairs
from sklearn.metrics import pairwise_distances
def sim_affinity(X):
    return pairwise_distances(X, metric=sim)

cluster = AgglomerativeClustering(n_clusters=5, affinity=sim_affinity, linkage='average')
cluster.fit(X)

或者您可以按照@avchauzov的建议使用affinity='precomputed'。为此,您将必须为fit()中的观测值传递预先计算的距离矩阵。像这样:

cluster = AgglomerativeClustering(n_clusters=5, affinity='precomputed', linkage='average')
distance_matrix = sim_affinity(X)
cluster.fit(distance_matrix)

注意:您已指定相似性代替了距离。因此,请确保您了解群集在此处的工作方式。或者也许调整您的相似度函数以返回距离。像这样:

def sim(x, y): 
    # Subtracted from 1.0 (highest similarity), so now it represents distance
    return 1.0 - np.sum(np.equal(np.array(x), np.array(y)))/len(x)

答案 1 :(得分:1)

常用的方法是放置affinity='precomputed并拟合距离矩阵(请参见此处的示例:See here

UPD 在sklearn.hierarchical.py(https://gist.github.com/codehacken/8b9316e025beeabb082dda4d0654a6fa)中,您可以看到您的自定义相似性仅需要获取X(而不是y)作为输入。输入应为“ linkage_tree”。因此,您需要重写sim()函数。

但是我认为第一种方法更加方便。