根据几列的条件更改数据框列中的某些值

时间:2021-01-15 13:36:34

标签: python pandas dataframe numpy where-clause

让我们以这个示例数据帧为例:

df = pd.DataFrame({'Category':['A','B','B','B','A'], 'Subcategory':['C','C','E','D','D']})

  Category Subcategory
0        A           C
1        B           C
2        B           E
3        B           D
4        A           D

我想用“B2”替换类别中的“B”值,其中子类别中有 C 或 D。我尝试了以下操作,但出现错误“系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()”:< /p>

df['Category']=np.where((df['Category']=='B') and (df['Subcategory']=='C' or df['Subcategory']== 'D'),'B2',df['Category'])

我知道 Stackoverflow 上已经有人问过一些类似的问题,但我不知道我错在哪里。你能帮我理解我的错误吗?

预期输出:

  Category Subcategory
0        A           C
1       B2           C
2        B           E
3       B2           D
4        A           D

2 个答案:

答案 0 :(得分:2)

对每个条件使用按位运算符和括号。请参阅 this 的说明

df['Category']=np.where((df['Category']=='B')
                        & ((df['Subcategory']=='C')
                           | (df['Subcategory']== 'D')),'B2',df['Category'])
df

Category    Subcategory
0   A   C
1   B2  C
2   B   E
3   B2  D
4   A   D

最好使用 isin 来检查多个值,df["Subcategory"].isin(['C', 'D'])

答案 1 :(得分:2)

使用df.loc。您也可以将 df[column].isin 用于多个值。

df.loc[(df["Subcategory"].isin(['C','D'])) & (df["Category"]=='B'),'Category']="B2"

输出

df
  Category Subcategory
0        A           C
1        B           C
2        B           E
3        B           D
4        A           D
df.loc[(df["Subcategory"].isin(['C', 'D'])) & (df["Category"] == 'B'), 'Category'] = "B2"
df
  Category Subcategory
0        A           C
1       B2           C
2        B           E
3       B2           D
4        A           D