Question

我正在尝试为分类数据构建聚类算法。

我已经阅读了不同的算法，例如k-modes，ROCK，LIMBO，但是我想构建一个算法，并将准确性和成本与其他算法进行比较。

我有（m）训练集和（n = 22）特征

方法

我的方法很简单：

步骤1：我计算每个训练数据之间的jaccard相似度，形成一个（m * m）相似度矩阵。
步骤2：然后我执行一些操作以找到最佳质心，并使用简单的k-means方法找到聚类。

在执行k-means算法时，将使用我在步骤1中创建的相似度矩阵

矩阵创建：

total_columns=22
for i in range(0,data_set):
    for j in range(0,data_set):
        if j>=i:
            # Calculating jaccard similarity between two data rows i and j 
            for column in data_set.columns:    
                if data_orig[column][j]==data_new[column][i]:
                    common_count=common_count+1
            probability=common_count/float(total_columns)    
            fnl_matrix[i][j] =probability  
            fnl_matrix[j][i] =probability

我的fnl_matrix（6行）的部分快照如下：

enter image description here

问题陈述：

我面临的问题是，当我创建（m * m）矩阵时，对于更大的数据集，我的表现就是折腾。即使对于具有8000行的较小数据集，相似性矩阵的创建也需要无法忍受的时间。有什么方法可以调整我的代码或对矩阵做一些具有成本效益的事情。

Answer 1

首先，你计算Jaccard的方式似乎效率低下（如果不是错误的话）。您正在使用for循环，这可能是在Python中执行操作的最慢方法。我建议你使用Python set来存储行。集合提供快速交集，因为它们是散列表，并且所有计算都是在C / C ++中执行而不是在Python本身中执行。想象一下r1和r2是两行。

r1 = set(some_row1)
r2 = set(some_row2)
intersection_len = len(r1.intersect(r2))
union_len = len(r1) + len(r2) - intersection_len
jaccard = intersection_len / union_len

设置构造很昂贵，因此您最初应将所有行存储为集合。那么你应该摆脱

for i in range(0,data_set):
    for j in range(0,data_set):

部分也是如此。请改用itertools。我们假设data_set是一个行列表。

for row1, row2 in itertools.combinations(data_set, r=2):
    ...

这件事运行得更快，并且需要if j>=i检查。这样就可以得到矩阵的上三角形。让我们来绘制最终算法的草图。 更新：添加numpy 。

from scipy.spatial import distance
from itertools import combinations
import numpy as np


def jaccard(set1, set2):
    intersection_len = set1.intersection(set2)
    union_len = len(set1) + len(set2) - intersection_len
    return intersection_len / union_len

original_data_set = [row1, row2, row3,..., row_m]
data_set = [set(row) for row in original_data_set]

jaccard_generator = (jaccard(row1, row2) for row1, row2 in combinations(data_set, r=2))
flattened_matrix = np.fromiter(jaccard_generator, dtype=np.float64)

# since flattened_matrix is the flattened upper triangle of the matrix
# we need to expand it.
normal_matrix = distance.squareform(flattened_matrix)
# replacing zeros with ones at the diagonal. 
normal_matrix += np.identity(len(data_set))

那就是它。你已经得到了你的矩阵。从这一点开始，您可以考虑使用这段代码并将其移植到Cython（还有很多工作要做，您只需要以稍微不同的方式定义jaccard函数，即添加类型局部变量的声明）。类似的东西：

cpdef double jaccard(set set1, set set2):
    cdef long intersection_len, union_len # or consider int 
    intersection_len = set1.intersection(set2)
    union_len = len(set1) + len(set2) - intersection_len
    return intersection_len / union_len

但我不确定这是否会正确编译（我的Cython体验非常有限）

P.S。您可以使用numpy数组而不是set，因为它们提供了类似的交集方法并且也在C / C ++中运行，但是两个数组的交集大约需要O（n ^ 2）时间，而如果碰撞率接近于零，则两个散列表（set对象）的交集需要O（n）时间。

Answer 2

解释的Python代码很慢。真的很慢。

这就是为什么好的python工具包包含大量的Cython代码甚至是C和Fortran代码（例如numpy中的矩阵运算），并且只使用Python来驱动整个过程。

如果您尝试尽可能多地使用numpy ，您可能会大大加快代码速度。或者如果你改用Cython。

考虑使用基于距离的聚类算法，而不是打击质心：

分层凝聚聚类（HAC），需要距离矩阵
DBSCAN，可以任意距离工作。它甚至不需要距离矩阵，只需要一些类似物品的列表来达到某个阈值。
K-medoids / PAM当然也值得一试;但通常不会很快。

使用jaccard相似性对分类数据进行聚类

方法

矩阵创建：

问题陈述：

2 个答案: