我有一个这样的数据框,
df:
col1 col2 col3
1 cat 4
nan dog nan
3 tiger 3
2 lion 9
nan frog nan
nan elephant nan
我想从此数据帧中创建一个数据帧,其中id在col1中存在nan值,col2值将添加到前一行的值。
例如,所需的输出数据帧将是:
col1 col2 col3
1 catdog 4
3 tiger 3
2 lionfrogelephant 9
如何使用熊猫来做到这一点?
答案 0 :(得分:1)
使用前向填充缺失值并汇总join
:
cols = ['col1','col3']
df[cols] = df[cols].ffill()
df = df.groupby(cols)['col2'].apply(''.join).reset_index()
print (df)
col1 col3 col2
0 1.0 4.0 catdog
1 2.0 9.0 lionfrogelephant
2 3.0 3.0 tiger
或者必要时在所有列中向前填充缺失值:
df = df.ffill().groupby(['col1','col3'])['col2'].apply(''.join).reset_index()
print (df)
col1 col3 col2
0 1.0 4.0 catdog
1 2.0 9.0 lionfrogelephant
2 3.0 3.0 tiger