我经常使用QAP
(二次分配程序)测试进行网络统计的显着性测试,但我从未真正理解样本大小究竟是什么。网络数量?节点?领带?
我现在正在尝试计算两个网络之间gcor
(在R包statnet中)的置信区间,并且似乎已经碰壁了。根据我的阅读,对(有效)样本量是什么没有普遍的共识。
任何人都可以就这应该给我什么建议吗?
我有两个网络,每个网络有23个节点。每个网络中有不同数量的关系。 如果有人对此有任何想法,我将非常感激!希望这个问题不要太模糊,但我认为一般问题可能适用于很多网络测试。
答案 0 :(得分:0)
在图相关的情况下,样本大小是邻接矩阵中{i,j}个单元的数量,减去对角线的数量。换句话说,它是网络中的总数或潜在联系。换句话说,n *(n-1)或[n *(n-1)] / 2(如果是无向的),其中n是节点的数量。 gcor
评估每对的存在与否之间的相关性。
> g1 <- rgraph(10)
> g2 <- rgraph(10)
> gcor(g1,g2)
[1] -0.0784586
> vg1 <- gvectorize(g1, censor.as.na = F) #This creates a vector of all non-diagonal pairs in the network, with 0 or 1
> vg2 <- gvectorize(g2, censor.as.na = F)
> cor(vg1,vg2) #Good old fashioned Pearson correlation
[1] -0.0784586
在这种具体情况下,23 *(23 -1)= 506或[23 *(23 -1)] / 2 = 253.
然而,如果您使用QAP,则构建相关性的置信区间完全是另一回事。 QAP是非参数测试,因此您在正常置信区间构建中使用的临界值(通常为±1.96)是不合适的。
另请注意,还有其他情况,尤其是图表级统计信息,其中样本大小基本上为1,因为统计信息是整个网络的属性。 (如果你在比较网络,还是2!)