给出一个数据框:
df =
car lat lon
0 0 22.0397 3.6531
1 1 22.0367 3.5095
2 2 22.0713 3.5346
3 3 22.1249 3.5922
我已经计算出欧式距离以获得矩阵:
from scipy.spatial.distance import squareform, pdist
pd.DataFrame(squareform(pdist(df.iloc[:, 1:])), columns=df1.car.unique(), index=df1.car.unique())
现在我想获取Hausdorff Distance并获取矩阵。
我尝试过:
def hausdorff(p, q):
p = p #Need to choose row
q = q #Need to choose row
return hausdorff_distance(p, q, distance="euclidean")
distance_df = squareform(pdist(df1.values, hausdorff))
euclidean = pd.DataFrame(distance_df)
答案 0 :(得分:2)
无需选择行,这可以为您pdist
。它为所有行组合调用用户提供的函数。因此,只需将行向量提供给hausdorff
。唯一的警告是hausdorff_distance
需要两个二维数组作为输入,因此您需要调整它们的形状。
def hausdorff(p, q):
p = p.reshape(-1,2)
q = q.reshape(-1,2)
return hausdorff_distance(p, q, distance="euclidean")
pd.DataFrame(squareform(pdist(df.iloc[:, 1:], hausdorff)), columns=df.car.unique(), index=df.car.unique())
结果:
0 1 2 3
0 0.000000 0.143631 0.122641 0.104728
1 0.143631 0.000000 0.042745 0.120907
2 0.122641 0.042745 0.000000 0.078681
3 0.104728 0.120907 0.078681 0.000000
pdist
中使用用户定义函数的技术问题。根据您要实现的目标,我想您需要提供多于一行的数组,例如给定汽车的所有行,如以下示例所示:
import itertools as it
df1 = pd.DataFrame({'car': [0,0,1,1,2,2], 'lat': 22+pd.np.random.rand(6), 'lon': 3+pd.np.random.rand(6)})
# car lat lon
#0 0 22.426797 3.006383
#1 0 22.894152 3.558360
#2 1 22.657756 3.969983
#3 1 22.788719 3.969007
#4 2 22.025103 3.854048
#5 2 22.867389 3.760920
cars = df1.car.unique()
p = []
for c in it.combinations(cars, 2):
p.append(hausdorff_distance( df1.loc[df1.car==c[0],['lat','lon']].to_numpy(), df1.loc[df1.car==c[1],['lat','lon']].to_numpy()))
pd.DataFrame(squareform(p), columns=cars, index=cars)
结果:
0 1 2
0 0.000000 0.990892 0.917975
1 0.990892 0.000000 0.643188
2 0.917975 0.643188 0.000000
但是请注意,Hausdorff距离是有向距离,即h(x,y)!= h(y,x)。 hausdorff_distance
计算h(x,y)和h(y,x)的最大值,因此您无法从中填充距离矩阵。您可以使用directed_hausdorff
正确创建距离矩阵。