Question

我有一个要处理的gpx文件。我想向其添加一列，该列基于另一个按距离列出地形的数据框来描述地形。以下是数据框：

GPS_df

    lat lon alt time    dist    total_dist
0   44.565335   -123.312517 85.314  2020-09-07 14:00:01 0.000000    0.000000
1   44.565336   -123.312528 85.311  2020-09-07 14:00:02 0.000547    0.000547
2   44.565335   -123.312551 85.302  2020-09-07 14:00:03 0.001137    0.001685
3   44.565332   -123.312591 85.287  2020-09-07 14:00:04 0.001985    0.003670
4   44.565331   -123.312637 85.270  2020-09-07 14:00:05 0.002272    0.005942
... ... ... ... ... ... ...
12481   44.565576   -123.316116 85.517  2020-09-07 17:28:14 0.002318    26.091324
12482   44.565559   -123.316072 85.587  2020-09-07 17:28:15 0.002469    26.093793
12483   44.565554   -123.316003 85.637  2020-09-07 17:28:16 0.003423    26.097217
12484   44.565535   -123.315966 85.697  2020-09-07 17:28:17 0.002249    26.099465
12485   44.565521   -123.315929 85.700  2020-09-07 17:28:18 0.002066    26.101532

terrain_df：

dist    terrain
0   0.0 Start
1   3.0 Road
2   5.0 Gravel
3   8.0 Trail-hard
4   12.0    Gravel
5   16.0    Trail-med
6   18.0    Road
7   22.0    Gravel
8   23.0    Trail-easy
9   26.2    Road

我想出了下面的代码，可以正常工作，但是我想通过消除循环来提高效率：

GPS_df['terrain']=""
i=0
for j in range(0,len(GPS_df)):
    if GPS_df.total_dist[j]<= terrain_df.dist[i]:
        GPS_df.terrain[j]=terrain_df.terrain[i]
    else:
        i=i+1
        GPS_df.terrain[j]=terrain_df.terrain[i]

我尝试了六种不同的方法，但是似乎都无法正常工作。我敢肯定有一个简单的方法可以做到这一点，但是到目前为止我还没有足够的技能和经验来解决这个问题，因此我正在寻求一些帮助。我尝试使用cut并添加标签，但是cut需要唯一的标签。我可以使用cut，然后以另一种方式用标签替换生成的间隔，但这似乎也不是最好的方法。我还尝试了从另一个问题中发现的这种方法，但是该方法仅在第一个标签中填充了该列（我也难以理解其工作原理，因此很难进行故障排除）。

bins = terrain_df['dist']
names = terrain_df['terrain']

d = dict(enumerate(names, 1))

GPS_df['terrain2'] = np.vectorize(d.get)(np.digitize(GPS_df['dist'], bins))

感谢您可以给我的任何指导。

Answer 1

我相信pandas.merge_asof应该可以解决问题。试试：

result = pd.merge_asof(left=GPS_df, right=terrain_df, left_on='total_dist', right_on='dist', direction='backward')

根据来自另一个数据框的间隔将列添加到数据框

1 个答案: