我有两个不同的数据框:
第一个数据帧存储一些可能的火车连接(例如时间表):
index route start stop
0 1 a b
1 1 b c
2 1 c d
3 1 d e
4 2 g h
5 2 h i
6 2 i j
第二个数据帧是对实际火车停靠站的度量:
index start stop passengers
0 a b 2
1 b d 4
2 a c 1
3 c d 2
4 g j 5
有时火车不会在车站停下来。我试图实现的目标是填补缺少的站点,并仍然跟踪乘客的测量:
index route start stop passengers
0 1 a b 2
1 1 b c 4
2 1 c d 4
3 1 a b 1
4 1 b c 1
5 1 c d 2
6 2 g h 5
7 2 h i 5
8 2 i j 5
因此,我只想填写所有已跳过的停靠点。
答案 0 :(得分:0)
正如Wen指出的那样,熊猫可能不是代表此类数据的最佳选择。如果要使用Pandas,我建议您通过在df中的“连接站”(在下一行=下一个站,除非它是另一条路线/使用字母定义顺序)附近切换为数字标识符并保留路线,名称,等等。如果您使用数字标识符,则可以通过以下方式将乘客加起来。通过100+站号或200+站号来区分不同的路线:
table = pd.DataFrame({'route':['g','g','g','g','r','r','r'],'start':[101,102,103,104,201,202,203],
'stop':[102,103,104,105,202,203,204],'count':[0,0,0,0,0,0,0]})
passenger = pd.DataFrame({'start':[101,102,202],'stop':[104,103,204],
'passenger':[2,5,3]})
count = list(zip(passenger.start.tolist(),passenger.stop.tolist(),passenger.passenger.tolist())) #merge the start, stop and count into one list for each entry
for c in count:
for x in range(c[0],c[1]+1): #go through each stop and add the count to the train table
table['count'] = np.where(table.start == x, table['count'] + c[2], table['count'])
table #Now with the passenger data