我有一个名为“main_df”的数据框,其中包含 3 列 X、Y、Z。
X Y Z
NaN NaN ZVal1
NaN NaN ZVal2
XVal1 NaN NaN
NaN YVal1 NaN
每列都携带特定类型 (X,Y,Z) 的数据,因此如果特定行的 X 列中有数据,则 Y/Z 列中将没有数据,因为它不是 X 类型。< /p>
如果您将所有 3 列组合在一起,它们会整齐地“相互滑动”,并且您会一直得到值。
如何将这 3 列合并为第 4 列,以便忽略 NaN 值,而我们只获得该行的 3 列中存在的任何单个值?
预期输出:
X Y Z XYZ
NaN NaN ZVal1 ZVal1
NaN NaN ZVal2 ZVal2
XVal1 NaN NaN XVal1
NaN YVal1 NaN YVal1
数据框代码:
import pandas as pd
import numpy as np
df = pd.DataFrame(columns=['X', 'Y', 'Z'], data=[[np.NaN, np.NaN, 'ZVal1'], [np.NaN, np.NaN, 'ZVal2'], ['XVal1', np.NaN, np.NaN], [np.NaN,'YVal1' ,np.NaN]])
现在我正在尝试做一些事情:
<块引用>df['XYZ'] = df['X'].astype(str) + df['Y'].astype(str) + df['Z'].astype(str) 但这将 NaN 值组合成一个长字符串
答案 0 :(得分:2)
使用stack
:
df["XYZ"] = df.stack().values
得到
>>> df
X Y Z XYZ
0 NaN NaN ZVal1 ZVal1
1 NaN NaN ZVal2 ZVal2
2 XVal1 NaN NaN XVal1
3 NaN YVal1 NaN YVal1
因为您保证每行只有 1 个非 NaN,并且 stack
默认丢弃 NaN。
另一种花哨的索引方式:
df["XYZ"] = df.to_numpy()[np.arange(len(df)),
df.columns.get_indexer(df.notna().idxmax(axis=1))]
对于每一行,查看非 NaN 值的索引并选择它。
答案 1 :(得分:1)
试试:
df["XYZ"] = df.apply(lambda x: x[x.notna()][0], axis=1)
print(df)
打印:
X Y Z XYZ
0 NaN NaN ZVal1 ZVal1
1 NaN NaN ZVal2 ZVal2
2 XVal1 NaN NaN XVal1
3 NaN YVal1 NaN YVal1
或者:
df["XYZ"] = df.bfill(axis=1)["X"]
print(df)