我有一个数据集,由于OCR有点脏。示例如下:
date float_col1 float_col2 txt_col
0 12/17/2019 0.00 5012.41 some string1
1 12/26/2019 0.00 0.30 some string2
2 NaN 1.98 0.00 some string3
3 01/06/2020 0.00 673.01 some string4
4 NaN 0.00 0.00 some string5
5 NaN 786.60 0.00 some string6
我想合并第4行和第5行,因为它们应该属于同一行。
条件是,如果float_col1和float_col1均为NA,则应将其合并。
数据集应如下所示:
date float_col1 float_col2 txt_col
0 12/17/2019 0.00 5012.41 some string1
1 12/26/2019 0.00 0.30 some string2
2 NaN 1.98 0.00 some string3
3 01/06/2020 0.00 673.01 some string4
4 NaN 786.60 0.00 some string5 some string6
谢谢。
答案 0 :(得分:1)
我们首先需要fillna
的NaN,因为np.nan
不等于自身,然后我们用gorupby
来agg
,并使用{{1 }}和shift
cumsum