Question

我有一个名为“main_df”的数据框，其中包含 3 列 X、Y、Z。

X        Y       Z
NaN      NaN     ZVal1
NaN      NaN     ZVal2
XVal1    NaN     NaN
NaN      YVal1   NaN

每列都携带特定类型 (X,Y,Z) 的数据，因此如果特定行的 X 列中有数据，则 Y/Z 列中将没有数据，因为它不是 X 类型。< /p>

如果您将所有 3 列组合在一起，它们会整齐地“相互滑动”，并且您会一直得到值。

如何将这 3 列合并为第 4 列，以便忽略 NaN 值，而我们只获得该行的 3 列中存在的任何单个值？

预期输出：

X        Y       Z           XYZ
NaN      NaN     ZVal1       ZVal1
NaN      NaN     ZVal2       ZVal2
XVal1    NaN     NaN         XVal1    
NaN      YVal1   NaN         YVal1

数据框代码：

 import pandas as pd
 import numpy as np
 df = pd.DataFrame(columns=['X', 'Y', 'Z'], data=[[np.NaN, np.NaN, 'ZVal1'], [np.NaN, np.NaN, 'ZVal2'], ['XVal1', np.NaN, np.NaN], [np.NaN,'YVal1' ,np.NaN]])

现在我正在尝试做一些事情：

<块引用>

df['XYZ'] = df['X'].astype(str) + df['Y'].astype(str) + df['Z'].astype(str) 但这将 NaN 值组合成一个长字符串

Answer 1

使用stack：

df["XYZ"] = df.stack().values

得到

>>> df

       X      Y      Z    XYZ
0    NaN    NaN  ZVal1  ZVal1
1    NaN    NaN  ZVal2  ZVal2
2  XVal1    NaN    NaN  XVal1
3    NaN  YVal1    NaN  YVal1

因为您保证每行只有 1 个非 NaN，并且 stack 默认丢弃 NaN。

另一种花哨的索引方式：

df["XYZ"] = df.to_numpy()[np.arange(len(df)),
                          df.columns.get_indexer(df.notna().idxmax(axis=1))]

对于每一行，查看非 NaN 值的索引并选择它。

Answer 2

试试：

df["XYZ"] = df.apply(lambda x: x[x.notna()][0], axis=1)
print(df)

打印：

       X      Y      Z    XYZ
0    NaN    NaN  ZVal1  ZVal1
1    NaN    NaN  ZVal2  ZVal2
2  XVal1    NaN    NaN  XVal1
3    NaN  YVal1    NaN  YVal1

或者：

df["XYZ"] = df.bfill(axis=1)["X"]
print(df)

给定每列具有 nan 值，如何将多个数据框列合并为一个

2 个答案: