我想测量汉明序列相似性,其中替代成本不是基于观察序列中的取代率,而是基于不同状态的研究区域内的空间自相关(因此状态与DNA无关)但还有别的东西)。
我将研究区域划分为相同大小(例如1000米)的网格单元格,并测量相同"状态"在相邻的细胞中观察到(Rook-case)。因此,权重矩阵表示从州A
到A
(在相同的州内移动)的概率要高于从A
到B
或{{}的概率。 1}}到B
或C
到A
。这已经表明状态具有高空间自相关性。
问题是,如果要测量序列相似性,则取代矩阵在对角线上应为C
。因此,我想知道是否存在一种来自自相关矩阵的变换"取代矩阵,沿对角线有0
个值。通过这种方式,我们想在我们的序列相似性度量中考虑研究区域中的空间自相关。要进行我的分析,我使用的是包0
。
R中的示例矩阵,用于由四种状态(A,B,C,D)组成的序列:
序列示例:TraMineR
自相关矩阵:
AAAAAABBBBCCCCCCCCCCCCDDDDDDDDDDDDDDDDDDDDDDDAAAAAAAAA
如何将此矩阵转换为替换矩阵?
答案 0 :(得分:1)
首先,TraMineR计算汉明距离,即不相似度,而不是相似度。
简单的汉明距离只是两个序列之间不匹配的计数。例如,AABBCC
和ABBBAC
之间的汉明距离为2,AAAAAA
和AAAAAA
之间的汉明距离为0,因为没有不匹配。
广义汉明允许用替换成本加权不匹配(不匹配!)。例如,如果A
和B
之间的替代费用是1.5,而B
和C
之间的替代费用是2,则距离将是不匹配的加权总和,即3.5前两个序列之间。它在一个序列和它自身之间仍然是零。
据我所知,所示矩阵不是替代成本的矩阵。它是您所称的“空间自相关”的矩阵,您可以查找如何将此信息转换为替换成本。
当自相关(在你的情况下是一个比率)很低时,即当在状态A附近找到说状态B的可能性很低时,想法是分配高替代成本(不匹配权重),并且当概率很高时,分配低替代成本。由于你的概率矩阵是对称的,一个简单的解决方案是对所有非对角线项使用$ 1 - p(A | B)$,并在对角线上留0,原因如上所述。
sm <- 1 - subm/100
diag(sm) <- 0
sm
对于非对称概率,您可以使用与从转换率中获得成本的公式类似的公式,即$ 2 - p(A | B) - p(B | A)$。