2列行之间的Hausdorff距离

时间:2019-12-08 01:14:57

标签: python pandas

给出一个数据框:

df = 

    car     lat    lon
0   0   22.0397 3.6531
1   1   22.0367 3.5095
2   2   22.0713 3.5346
3   3   22.1249 3.5922

我已经计算出欧式距离以获得矩阵:

from scipy.spatial.distance import squareform, pdist

pd.DataFrame(squareform(pdist(df.iloc[:, 1:])), columns=df1.car.unique(), index=df1.car.unique())

现在我想获取Hausdorff Distance并获取矩阵。


我尝试过:

def hausdorff(p, q):
    p = p #Need to choose row
    q = q #Need to choose row
    return hausdorff_distance(p, q, distance="euclidean")

distance_df = squareform(pdist(df1.values, hausdorff))
euclidean = pd.DataFrame(distance_df)

1 个答案:

答案 0 :(得分:2)

无需选择行,这可以为您pdist。它为所有行组合调用用户提供的函数。因此,只需将行向量提供给hausdorff。唯一的警告是hausdorff_distance需要两个二维数组作为输入,因此您需要调整它们的形状。

def hausdorff(p, q):
    p = p.reshape(-1,2)
    q = q.reshape(-1,2)
    return hausdorff_distance(p, q, distance="euclidean")

pd.DataFrame(squareform(pdist(df.iloc[:, 1:], hausdorff)), columns=df.car.unique(), index=df.car.unique())

结果:

          0         1         2         3
0  0.000000  0.143631  0.122641  0.104728
1  0.143631  0.000000  0.042745  0.120907
2  0.122641  0.042745  0.000000  0.078681
3  0.104728  0.120907  0.078681  0.000000


以上只是回答了如何在pdist中使用用户定义函数的技术问题。根据您要实现的目标,我想您需要提供多于一行的数组,例如给定汽车的所有行,如以下示例所示:

import itertools as it

df1 = pd.DataFrame({'car': [0,0,1,1,2,2], 'lat': 22+pd.np.random.rand(6), 'lon': 3+pd.np.random.rand(6)})
#   car        lat       lon
#0    0  22.426797  3.006383
#1    0  22.894152  3.558360
#2    1  22.657756  3.969983
#3    1  22.788719  3.969007
#4    2  22.025103  3.854048
#5    2  22.867389  3.760920

cars = df1.car.unique()
p = []
for c in it.combinations(cars, 2):
    p.append(hausdorff_distance( df1.loc[df1.car==c[0],['lat','lon']].to_numpy(), df1.loc[df1.car==c[1],['lat','lon']].to_numpy()))
pd.DataFrame(squareform(p), columns=cars, index=cars)

结果:

          0         1         2
0  0.000000  0.990892  0.917975
1  0.990892  0.000000  0.643188
2  0.917975  0.643188  0.000000

但是请注意,Hausdorff距离是有向距离,即h(x,y)!= h(y,x)。 hausdorff_distance计算h(x,y)和h(y,x)的最大值,因此您无法从中填充距离矩阵。您可以使用directed_hausdorff正确创建距离矩阵。