我有一个要处理的gpx文件。我想向其添加一列,该列基于另一个按距离列出地形的数据框来描述地形。以下是数据框:
GPS_df
lat lon alt time dist total_dist
0 44.565335 -123.312517 85.314 2020-09-07 14:00:01 0.000000 0.000000
1 44.565336 -123.312528 85.311 2020-09-07 14:00:02 0.000547 0.000547
2 44.565335 -123.312551 85.302 2020-09-07 14:00:03 0.001137 0.001685
3 44.565332 -123.312591 85.287 2020-09-07 14:00:04 0.001985 0.003670
4 44.565331 -123.312637 85.270 2020-09-07 14:00:05 0.002272 0.005942
... ... ... ... ... ... ...
12481 44.565576 -123.316116 85.517 2020-09-07 17:28:14 0.002318 26.091324
12482 44.565559 -123.316072 85.587 2020-09-07 17:28:15 0.002469 26.093793
12483 44.565554 -123.316003 85.637 2020-09-07 17:28:16 0.003423 26.097217
12484 44.565535 -123.315966 85.697 2020-09-07 17:28:17 0.002249 26.099465
12485 44.565521 -123.315929 85.700 2020-09-07 17:28:18 0.002066 26.101532
terrain_df:
dist terrain
0 0.0 Start
1 3.0 Road
2 5.0 Gravel
3 8.0 Trail-hard
4 12.0 Gravel
5 16.0 Trail-med
6 18.0 Road
7 22.0 Gravel
8 23.0 Trail-easy
9 26.2 Road
我想出了下面的代码,可以正常工作,但是我想通过消除循环来提高效率:
GPS_df['terrain']=""
i=0
for j in range(0,len(GPS_df)):
if GPS_df.total_dist[j]<= terrain_df.dist[i]:
GPS_df.terrain[j]=terrain_df.terrain[i]
else:
i=i+1
GPS_df.terrain[j]=terrain_df.terrain[i]
我尝试了六种不同的方法,但是似乎都无法正常工作。我敢肯定有一个简单的方法可以做到这一点,但是到目前为止我还没有足够的技能和经验来解决这个问题,因此我正在寻求一些帮助。我尝试使用cut并添加标签,但是cut需要唯一的标签。我可以使用cut,然后以另一种方式用标签替换生成的间隔,但这似乎也不是最好的方法。我还尝试了从另一个问题中发现的这种方法,但是该方法仅在第一个标签中填充了该列(我也难以理解其工作原理,因此很难进行故障排除)。
bins = terrain_df['dist']
names = terrain_df['terrain']
d = dict(enumerate(names, 1))
GPS_df['terrain2'] = np.vectorize(d.get)(np.digitize(GPS_df['dist'], bins))
感谢您可以给我的任何指导。
答案 0 :(得分:1)
我相信pandas.merge_asof
应该可以解决问题。试试:
result = pd.merge_asof(left=GPS_df, right=terrain_df, left_on='total_dist', right_on='dist', direction='backward')