让我们以这个示例数据帧为例:
df = pd.DataFrame({'Category':['A','B','B','B','A'], 'Subcategory':['C','C','E','D','D']})
Category Subcategory
0 A C
1 B C
2 B E
3 B D
4 A D
我想用“B2”替换类别中的“B”值,其中子类别中有 C 或 D。我尝试了以下操作,但出现错误“系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()”:< /p>
df['Category']=np.where((df['Category']=='B') and (df['Subcategory']=='C' or df['Subcategory']== 'D'),'B2',df['Category'])
我知道 Stackoverflow 上已经有人问过一些类似的问题,但我不知道我错在哪里。你能帮我理解我的错误吗?
预期输出:
Category Subcategory
0 A C
1 B2 C
2 B E
3 B2 D
4 A D
答案 0 :(得分:2)
对每个条件使用按位运算符和括号。请参阅 this 的说明
df['Category']=np.where((df['Category']=='B')
& ((df['Subcategory']=='C')
| (df['Subcategory']== 'D')),'B2',df['Category'])
df
Category Subcategory
0 A C
1 B2 C
2 B E
3 B2 D
4 A D
最好使用 isin
来检查多个值,df["Subcategory"].isin(['C', 'D'])
答案 1 :(得分:2)
使用df.loc
。您也可以将 df[column].isin
用于多个值。
df.loc[(df["Subcategory"].isin(['C','D'])) & (df["Category"]=='B'),'Category']="B2"
输出
df
Category Subcategory
0 A C
1 B C
2 B E
3 B D
4 A D
df.loc[(df["Subcategory"].isin(['C', 'D'])) & (df["Category"] == 'B'), 'Category'] = "B2"
df
Category Subcategory
0 A C
1 B2 C
2 B E
3 B2 D
4 A D