Question

我在SQL Server中有两个表，即一个表格为GraphNodes：

---------------------------------------------------------
id | Node_ID | Node            |  Node_Label | Node_Type
---------------------------------------------------------
1    677       Nuno Vasconcelos   Author       1
2    1359      Peng Shi           Author       1
3    6242      Z. Q. Shi          Author       1
4    8318      Kiyoung Choi       Author       1
5    12405     Johan A. K.        Author       1
6    26615     Tzung-Pei Hong     Author       1
7    30559     Luca Benini        Author       1  
...  
...

和其他表格GraphEdges为：

-----------------------------------------------------------------------------------------
id | Source_Node | Source_Node_Type | Target_Node | Target_Node_Type | Year |  Edge_Type
-----------------------------------------------------------------------------------------
1    1             1                  10965         2                  2005    1
2    1             1                  10179         2                  2007    1
3    1             1                  10965         2                  2007    1
4    1             1                  19741         2                  2007    1
5    1             1                  10965         2                  2009    1
6    1             1                  4816          2                  2011    1
7    1             1                  5155          2                  2011    1  
...  
...

我还有两张表，GraphNodeTypes为：

-------------------------
id | Node    | Node_Type
-------------------------
1    Author    1
2    CoAuthor  2
3    Venue     3
4    Paper     4

和GraphEdgeTypes as：

-------------------------------
id | Edge          | Edge_Type
-------------------------------
1    AuthorCoAuthor  1
2    CoAuthorVenue   2
3    AuthorVenue     3
4    PaperVenue      4
5    AuthorPaper     5
6    CoAuthorPaper   6

现在，我想计算该图的聚类系数，即两种类型：
如果N（V）是链路的数量b / w节点V的邻居并且K（V）是节点V的度，那么，

Local Clustering Coefficient(V) = 2 * N(V)/K(V) [K(V) - 1]

和

Global Clustering Coefficient = 3 * # of Triangles / # of connected Triplets of V

问题是，我该如何计算节点的度数？是否可以在SQL Server或C＃编程中使用。还请提出计算本地和全球CC的提示。

谢谢！

Answer 1

节点的程度不是＆＃34;计算＆＃34;。它只是这个节点的边数。

虽然您可以尝试在SQL中执行此操作，但性能可能会很平庸。这种类型的分析通常在专门的数据库中完成，如果可能的话，在内存中完成。

Answer 2

计算每个顶点的度数作为连接到其的边数。在这种情况下，使用COUNT（source_node）和GROUP BY（source_node）将很有帮助。

要找到N（V），可以将边表与自身连接，然后取结果表与边表之间的交集。从结果中，为每个顶点取COUNT（）。

使用SQL Server / C＃集群系数

2 个答案: