我试图根据第四列中的值从另外两列填充一列中的值。
我有一个包含四列的pandas数据框:A,B,C,D
df_copy = df.copy()
for i, row in df.iterrows():
if 'Test' in row.D:
df_copy.loc[i, 'A'] = row.B
elif 'Other' in row.D:
df_copy.loc[i, 'A'] = row.C
这很有效,但速度很慢。有更有效的方法吗?
答案 0 :(得分:3)
您可以为此使用“布尔索引”,而不是遍历所有行:
df_copy.loc[df['D']=='Test', 'A'] = df['B']
df_copy.loc[df['D']=='Other', 'A'] = df['C']
如果你知道D列只包含这两个值,它甚至可以更短:
df_copy['A'] = df['B']
df_copy.loc[df['D']=='Other', 'A'] = df['C']
如果您想要与in
运算符相同来测试该子字符串是否在列中,您可以执行以下操作:
df['D'].str.contains('Other')
成为布尔值而不是df['D']=='Other'