Question

我想测量汉明序列相似性，其中替代成本不是基于观察序列中的取代率，而是基于不同状态的研究区域内的空间自相关（因此状态与DNA无关）但还有别的东西）。

我将研究区域划分为相同大小（例如1000米）的网格单元格，并测量相同＆＃34;状态＆＃34;在相邻的细胞中观察到（Rook-case）。因此，权重矩阵表示从州A到A（在相同的州内移动）的概率要高于从A到B或{{}的概率。 1}}到B或C到A。这已经表明状态具有高空间自相关性。

问题是，如果要测量序列相似性，则取代矩阵在对角线上应为C。因此，我想知道是否存在一种来自自相关矩阵的变换＆＃34;取代矩阵，沿对角线有0个值。通过这种方式，我们想在我们的序列相似性度量中考虑研究区域中的空间自相关。要进行我的分析，我使用的是包0。

R中的示例矩阵，用于由四种状态（A，B，C，D）组成的序列：序列示例：TraMineR

自相关矩阵：

AAAAAABBBBCCCCCCCCCCCCDDDDDDDDDDDDDDDDDDDDDDDAAAAAAAAA

如何将此矩阵转换为替换矩阵？

Answer 1

首先，TraMineR计算汉明距离，即不相似度，而不是相似度。

简单的汉明距离只是两个序列之间不匹配的计数。例如，AABBCC和ABBBAC之间的汉明距离为2，AAAAAA和AAAAAA之间的汉明距离为0，因为没有不匹配。

广义汉明允许用替换成本加权不匹配（不匹配！）。例如，如果A和B之间的替代费用是1.5，而B和C之间的替代费用是2，则距离将是不匹配的加权总和，即3.5前两个序列之间。它在一个序列和它自身之间仍然是零。

据我所知，所示矩阵不是替代成本的矩阵。它是您所称的“空间自相关”的矩阵，您可以查找如何将此信息转换为替换成本。

当自相关（在你的情况下是一个比率）很低时，即当在状态A附近找到说状态B的可能性很低时，想法是分配高替代成本（不匹配权重），并且当概率很高时，分配低替代成本。由于你的概率矩阵是对称的，一个简单的解决方案是对所有非对角线项使用$ 1 - p（A | B）$，并在对角线上留0，原因如上所述。

sm <- 1 - subm/100
diag(sm) <- 0
sm

对于非对称概率，您可以使用与从转换率中获得成本的公式类似的公式，即$ 2 - p（A | B） - p（B | A）$。

基于空间自相关变换的置换矩阵

1 个答案: