基于空间自相关变换的置换矩阵

时间:2014-09-22 13:19:17

标签: r matrix substitution traminer

我想测量汉明序列相似性,其中替代成本不是基于观察序列中的取代率,而是基于不同状态的研究区域内的空间自相关(因此状态与DNA无关)但还有别的东西)。

我将研究区域划分为相同大小(例如1000米)的网格单元格,并测量相同"状态"在相邻的细胞中观察到(Rook-case)。因此,权重矩阵表示从州AA(在相同的州内移动)的概率要高于从AB或{{}的概率。 1}}到BCA。这已经表明状态具有高空间自相关性。

问题是,如果要测量序列相似性,则取代矩阵在对角线上应为C。因此,我想知道是否存在一种来自自相关矩阵的变换"取代矩阵,沿对角线有0个值。通过这种方式,我们想在我们的序列相似性度量中考虑研究区域中的空间自相关。要进行我的分析,我使用的是包0

R中的示例矩阵,用于由四种状态(A,B,C,D)组成的序列: 序列示例:TraMineR

自相关矩阵:

AAAAAABBBBCCCCCCCCCCCCDDDDDDDDDDDDDDDDDDDDDDDAAAAAAAAA

如何将此矩阵转换为替换矩阵?

1 个答案:

答案 0 :(得分:1)

首先,TraMineR计算汉明距离,即不相似度,而不是相似度。

简单的汉明距离只是两个序列之间不匹配的计数。例如,AABBCCABBBAC之间的汉明距离为2,AAAAAAAAAAAA之间的汉明距离为0,因为没有不匹配。

广义汉明允许用替换成本加权不匹配(不匹配!)。例如,如果AB之间的替代费用是1.5,而BC之间的替代费用是2,则距离将是不匹配的加权总和,即3.5前两个序列之间。它在一个序列和它自身之间仍然是零。

据我所知,所示矩阵不是替代成本的矩阵。它是您所称的“空间自相关”的矩阵,您可以查找如何将此信息转换为替换成本。

当自相关(在你的情况下是一个比率)很低时,即当在状态A附近找到说状态B的可能性很低时,想法是分配高替代成本(不匹配权重),并且当概率很高时,分配低替代成本。由于你的概率矩阵是对称的,一个简单的解决方案是对所有非对角线项使用$ 1 - p(A | B)$,并在对角线上留0,原因如上所述。

sm <- 1 - subm/100
diag(sm) <- 0
sm

对于非对称概率,您可以使用与从转换率中获得成本的公式类似的公式,即$ 2 - p(A | B) - p(B | A)$。