我有一些熊猫数据框:
a,b,c
AAA,,
DDD,,
KKK,,
AAA,,
我想在“ A”列中搜索,如果“ A”列中的字符串包含单词“ AAA”,则需要在“ B”列中设置值“ BBB”,在“ C”列中设置值“ CCC”。
所以,我想得到如下结果:
a,b,c
AAA,BBB,CCC
DDD,,
KKK,,
AAA,BBB,CCC
我用numpy编写了代码:
df['b'] = pd.np.where(df.a.str.contains("AAA"), "BBB", '')
如何将其扩展为与“ b”和“ c”列配合使用?
答案 0 :(得分:1)
您可以使用双np.where
:
mask = df.a.str.contains("AAA")
df['b'] = pd.np.where(mask, "BBB", '')
df['c'] = pd.np.where(mask, "CCC", '')
或assign
:
mask = df.a.str.contains("AAA")
df = df.assign(b=pd.np.where(mask, "BBB", ''), c=pd.np.where(mask, "CCC", ''))
如果需要使用一个np.where
创建多列,则需要创建Nx1
掩码:
mask = df.a.str.contains("AAA")[:, None]
df[['b','c']] = np.where(mask, ['BBB','CCC'], ['',''])
print (df)
a b c
0 AAA BBB CCC
1 DDD
2 KKK
3 AAA BBB CCC