Question

我在熊猫中有2个数据帧，包含汽车和树木的位置信息。

DF1

<property name="hibernate.transaction.jta.platform" value="org.hibernate.service.jta.platform.internal.SunOneJtaPlatform" />

df2

                 x       y   
         car
          3     216     13    
          4     218     12    
          5     217     12

我如何计算每辆车与每棵树之间的欧氏距离，然后滤出小于例如：5的距离？我想创建另一个数据框，其中包含汽车和树木编号，以及两者之间的距离（见下文）

DF3

                 x       y    
          tree 
          5     253     180    
          6     241     24    
          8     217     14

到目前为止，我可以使用

         car   tree    dist     
          5     8      2.2

获得所有东西的欧几里德距离，但我很难选择我需要的值（即距离<5）。帮助表示感谢，谢谢!!

Answer 1

这是一种方式：

import pandas as pd
from toolz import concat
import scipy

df1 = pd.DataFrame([[3, 216, 13],
                    [4, 218, 12],
                    [5, 217, 12]],
                   columns=['car', 'x',  'y'])
df1 = df1.set_index('car')

df2 = pd.DataFrame([[5, 253, 180],
                    [6, 241, 24],
                    [8, 217, 14]],
                   columns=['tree', 'x',  'y'])
df2 = df2.set_index('tree')

indices = list(map(list, zip(*[(x, y) for x in df1.index for y in df2.index])))
distance = scipy.spatial.distance.cdist(df1, df2, metric='euclidean')

df3 = pd.DataFrame({'car': indices[0], 'tree': indices[1], 'distance': list(concat(distance))})

df4 = df3[df3['distance'] < 5]

Answer 2

distance = spatial.distance.cdist(df1, df2, metric='euclidean')
idx = np.where(distance < 5)
pd.DataFrame({"car":df1.iloc[idx[0]].index.values, 
              "tree":df2.iloc[idx[1]].index.values,
              "dist": distance[idx]})

    car dist        tree
0   3   1.414214    8
1   4   2.236068    8
2   5   2.000000    8

cdist的（i，j）条目是第一组项目中的第i项与第二组项目中的第j项之间的距离。
我们使用np.where来识别distance中满足条件distance < 5的（i，j）对。
我们使用从最后一步获得的索引构建了一个新的数据框。 idx[0]提供了df1中我们需要检索的部分，idx[1]给出了df2中我们需要获取的部分。

如何使数据框中的最小值低于某个阈值？

2 个答案: