基数R中的排列之间的肯德尔tau距离(a.k.a气泡排序距离)

时间:2013-11-26 18:18:02

标签: r algorithm permutation

如何在R中计算两个排列之间的Kendall tau距离(a.k.a. bubble-sort distance)而不加载其他库?

3 个答案:

答案 0 :(得分:4)

这是一个O(n.log(n))实现在阅读后拼凑在一起,但我怀疑可能有更好的R解决方案。

inversionNumber <- function(x){
    mergeSort <- function(x){
        if(length(x) == 1){
            inv <- 0
            #printind(' base case')
        } else {
            n <- length(x)
            n1 <- ceiling(n/2)
            n2 <- n-n1
            y1 <- mergeSort(x[1:n1])
            y2 <- mergeSort(x[n1+1:n2])
            inv <- y1$inversions + y2$inversions
            x1 <- y1$sortedVector
            x2 <- y2$sortedVector
            i1 <- 1
            i2 <- 1
            while(i1+i2 <= n1+n2+1){
                if(i2 > n2 || (i1 <= n1 && x1[i1] <= x2[i2])){ # ***
                    x[i1+i2-1] <- x1[i1]
                    i1 <- i1 + 1
                } else {
                    inv <- inv + n1 + 1 - i1
                    x[i1+i2-1] <- x2[i2]
                    i2 <- i2 + 1
                }
            }
        }
        return (list(inversions=inv,sortedVector=x))
    }
    r <- mergeSort(x)
    return (r$inversions)
}

kendallTauDistance <- function(x,y){
    return(inversionNumber(order(x)[rank(y)]))
}

如果需要自定义打破平局,则必须在标记为# ***

的行上摆弄最后一个条件

用法:

> kendallTauDistance(c(1,2,4,3),c(2,3,1,4))
[1] 3

答案 1 :(得分:1)

您可以使用

(choose(length(x),2) - cov(x,y,method='kendall')/2)/2

如果您知道输入列表xy都不包含重复项。

答案 2 :(得分:0)

嗯。有人对我一直在做的事情感兴趣。

下面是我在python中的代码。

from collections import OrderedDict


def invert(u):
    identity = sorted(u)
    ui = []
    for x in identity:
        index = u.index(x)
        ui.append(identity[index])
    print "Given U is:\n",u
    print "Inverse of U is:\n",ui
    return identity,ui

def r_vector(x,y,id):
    # from collections import OrderedDict
    id_x_Map = OrderedDict(zip(id,x))
    id_y_Map = OrderedDict(zip(id,y))
    r = []
    for x_index,x_value in id_x_Map.items():
        for y_index,y_value in id_y_Map.items():
            if (x_value == y_index):
                r.append(y_value)

    print r
    return r

def xr_vector(x):
    # from collections import OrderedDict
    values_checked = []
    unorderd_xr = []
    ordered_xr = []

    for value in x:
        values_to_right = []
        for n in x[x.index(value)+1:]:
                    values_to_right.append(n)
            result = [i for i in values_to_right if i < value]
            if(len(result)!=0):
                values_checked.append(value)
                unorderd_xr.append(len(result))

    value_ltValuePair = OrderedDict(zip(values_checked,unorderd_xr))

    for key in sorted(value_ltValuePair):
        # print key,value_ltValuePair[key]
        ordered_xr.append(value_ltValuePair[key])
    print "Xr= ",ordered_xr
    print "Kendal Tau distance = ",sum(ordered_xr)



if __name__ == '__main__':
    print "***********************************************************"
    print "Enter the first string (U):"
    u = raw_input().split() 
    print "Enter the second string (V):"
    v = raw_input().split()
    print "***********************************************************"

    print "Step 1: Find U Inverse"
    identity,uinverse = invert(u)
    print "***********************************************************"

    print "Step 2: Find R = V.UInverse"
    r = r_vector(v,uinverse,identity)
    print "***********************************************************"

    print "Step 3: Finding XR and Kenday_Tau"
    xr_vector(r)

关于以这种方式找到Kendall Tau距离的方法/算法,我要么留给你,要么指向研究论文 Optimal Permutation Codes and the Kendall’s τ-Metric

你可以在R中实现(接近)。