Pandas dataframe列值不区分大小写替换<condition>

时间:2017-12-07 09:39:47

标签: python pandas dataframe replace case-insensitive

pandas.DataFrame.replace是否有不区分大小写的版本? https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.replace.html

我需要替换一个列中的字符串值,该列受到表格&#34;其中label == a或label == b或label == c&#34;。

的不区分大小写的条件限制。

2 个答案:

答案 0 :(得分:2)

我认为需要转换为lower,然后将条件替换为isin

d = {'a':['test', 'Test', 'cat', 'CAT', 'dog', 'Cat']}
df = pd.DataFrame(data=d)

m = df['a'].str.lower().isin(['cat','test'])
df.loc[m, 'a'] = 'baby' 
print (df)
      a
0  baby
1  baby
2  baby
3  baby
4   dog
5  baby

另一种解决方案:

df['b'] = df['a'].str.replace('test', 'baby', flags=re.I)
print (df)
      a     b
0  test  baby
1  Test  baby
2   cat   cat
3   CAT   CAT
4   dog   dog
5   Cat   Cat

答案 1 :(得分:2)

其他一些问题的问题在于,它们不适用于所有数据框,仅适用于Series或可以隐式转换为Series的Dataframe。我知道这是因为.str构造存在于Series类中,而不存在于Dataframe类中。

要使用数据框,可以使用扩展名(?i)使正则表达式不区分大小写。我不认为此功能可用于所有RegEx,但可与Pandas一起使用。

d = {'a':['test', 'Test', 'cat'], 'b':['CAT', 'dog', 'Cat']}
df = pd.DataFrame(data=d)

    a       b
0   test    CAT
1   Test    dog
2   cat     Cat

然后像平常一样使用替换,但使用(?i)扩展名:

df.replace('(?i)cat', 'MONKEY', regex=True)

    a       b
0   test    MONKEY
1   Test    dog
2   MONKEY  MONKEY