给定每列具有 nan 值,如何将多个数据框列合并为一个

时间:2021-06-16 16:08:08

标签: python pandas dataframe

我有一个名为“main_df”的数据框,其中包含 3 列 X、Y、Z。

X        Y       Z
NaN      NaN     ZVal1
NaN      NaN     ZVal2
XVal1    NaN     NaN
NaN      YVal1   NaN

每列都携带特定类型 (X,Y,Z) 的数据,因此如果特定行的 X 列中有数据,则 Y/Z 列中将没有数据,因为它不是 X 类型。< /p>

如果您将所有 3 列组合在一起,它们会整齐地“相互滑动”,并且您会一直得到值。

如何将这 3 列合并为第 4 列,以便忽略 NaN 值,而我们只获得该行的 3 列中存在的任何单个值?

预期输出:

X        Y       Z           XYZ
NaN      NaN     ZVal1       ZVal1
NaN      NaN     ZVal2       ZVal2
XVal1    NaN     NaN         XVal1    
NaN      YVal1   NaN         YVal1   

数据框代码:

 import pandas as pd
 import numpy as np
 df = pd.DataFrame(columns=['X', 'Y', 'Z'], data=[[np.NaN, np.NaN, 'ZVal1'], [np.NaN, np.NaN, 'ZVal2'], ['XVal1', np.NaN, np.NaN], [np.NaN,'YVal1' ,np.NaN]])

现在我正在尝试做一些事情:

<块引用>

df['XYZ'] = df['X'].astype(str) + df['Y'].astype(str) + df['Z'].astype(str) 但这将 NaN 值组合成一个长字符串

2 个答案:

答案 0 :(得分:2)

使用stack

df["XYZ"] = df.stack().values

得到

>>> df

       X      Y      Z    XYZ
0    NaN    NaN  ZVal1  ZVal1
1    NaN    NaN  ZVal2  ZVal2
2  XVal1    NaN    NaN  XVal1
3    NaN  YVal1    NaN  YVal1

因为您保证每行只有 1 个非 NaN,并且 stack 默认丢弃 NaN。


另一种花哨的索引方式:

df["XYZ"] = df.to_numpy()[np.arange(len(df)),
                          df.columns.get_indexer(df.notna().idxmax(axis=1))]

对于每一行,查看非 NaN 值的索引并选择它。

答案 1 :(得分:1)

试试:

df["XYZ"] = df.apply(lambda x: x[x.notna()][0], axis=1)
print(df)

打印:

       X      Y      Z    XYZ
0    NaN    NaN  ZVal1  ZVal1
1    NaN    NaN  ZVal2  ZVal2
2  XVal1    NaN    NaN  XVal1
3    NaN  YVal1    NaN  YVal1

或者:

df["XYZ"] = df.bfill(axis=1)["X"]
print(df)