图围绕特定节点的群集节点

时间:2018-10-24 22:46:04

标签: python python-3.x networkx k-means

考虑来自networkx的节点图,我如何应用所有节点的kmean群集,其中将特定节点视为群集的质心。换句话说,假设我们有这张图:

import networkx as nx

s = [0,3,2,3,4,5,1]
t = [1,2,7,4,6,6,5]
dist = [3,2,5,1,5,4,2]

G = nx.Graph()
for i in range(len(s)):
    G.add_edge(s[i],t[i],weight=dist[i])

我想在网络上应用kmean聚类,例如,我选择质心为3和6,图将被聚类以生成两个子图(或输入的质心数量相同)

我一直在查看https://www.learndatasci.com/tutorials/k-means-clustering-algorithms-python-intro/处的kmean聚类,但输入的质心并没有覆盖其中,而是仅考虑了没有质心节点的聚类数量。

1 个答案:

答案 0 :(得分:2)

请注意,您不能直接将k均值聚类应用于网络,因为不一定存在度量节点与形心之间距离的度量。 但是 ...

..只要您假设:

  • 加权最短路径的路径长度是一对节点之间的距离度量。
  • 质心是节点。注意:在传统的k均值聚类中,centroids本身不一定是数据点。

在这些假设下,如果您将具有最短加权最短路径的质心与每个节点相关联,则到质心的距离之和最小。

因此过程可以是:

  • 将每个节点与一个质心相关联,以使从每个节点到其质心的距离之和最小(即距离的簇距之和)
  • 更新质心
  • 重复前两个步骤,直到质心稳定为止。

此过程与k-mean clustering的过程大致相对应,即最小化集群内平方和(WCSS)。

尽管此过程类似于度量空间中数据点中的k均值聚类,但我不会将其称为k均值聚类。尤其是因为质心的位置仅限于网络中的节点。


这是您可以使用python处理的方法:

1。 定义初始质心

centroids = [3, 6]

2。。对于每个节点,获取所有质心的所有最短路径

例如:

shortest_paths = [[(cent, nx.shortest_path(
                 G, source=n ,target=cent, weight='weight'
             )) for cent in centroids] for n in G.nodes
             ]

这给出了(这里将它们与质心ID一起报告):

In [26]: shortest_paths                                                         
Out[26]: 
[[(3, [0, 1, 5, 6, 4, 3]), (6, [0, 1, 5, 6])],
[(3, [1, 5, 6, 4, 3]), (6, [1, 5, 6])],
[(3, [3]), (6, [3, 4, 6])],
[(3, [2, 3]), (6, [2, 3, 4, 6])],
[(3, [7, 2, 3]), (6, [7, 2, 3, 4, 6])],
[(3, [4, 3]), (6, [4, 6])],
[(3, [6, 4, 3]), (6, [6])],
[(3, [5, 6, 4, 3]), (6, [5, 6])]]

3。 计算实际距离,即针对所有节点的所有最短路径求和路径上的权重:

例如:

distances = [
    [
        (
            sp[0],  # this is the id of the centroid
            sum([
                G[sp[1][i]][sp[1][i+1]]['weight'] 
                for i in range(len(sp[1]) - 1)
            ]) if len(sp[1]) > 1 else 0
        ) for sp in sps
    ] for sps in shortest_paths
    ]

所以距离是:

In [28]: distances                                                              
Out[28]: 
[[(3, 15), (6, 9)],
[(3, 12), (6, 6)],
[(3, 0), (6, 6)],
[(3, 2), (6, 8)],
[(3, 7), (6, 13)],
[(3, 1), (6, 5)],
[(3, 6), (6, 0)],
[(3, 10), (6, 4)]]

4。 获取所有节点的最小距离的质心

例如:

closest_centroid = [
    min(dist, key=lambda d: d[1])[0] for dist in distances
]

根据质心进行分组:

In [30]: closest_centroid                                                       
Out[30]: [6, 6, 3, 3, 3, 3, 6, 6]

5。 更新质心,因为当前质心可能不再是该组的实际质心:

方法:

# for each group
    # for each member of the group
        # get the distance of shortest paths to all the other members of the group
        # sum this distances
    # find the node with the minimal summed distance > this is the new centroid of the group

迭代 :如果新质心与旧质心不同,请使用新质心并重复步骤2-5。 >

最后一步::如果在第5步中找到的新质心。与旧质心相同或您已达到迭代限制,请关联最接近每个节点的质心

例如:

nodes = [n for n in G]  # the actual id of the nodes
cent_dict = {nodes[i]: closest_centroid[i] for i in range(len(nodes))}
nx.set_node_attributes(G, cent_dict, 'centroid')

或者nx.set_node_attributes(G, 'centroid', cent_dict)(如果您仍处于v1.x)。

这将是对网络进行某种k均值聚类的一种方法。

希望能帮助您编写愉快的代码!