采用以下示例。要替换一个特定列中的一个字符串,我已经完成了这个并且它工作正常:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data1': range(6),
'data2': ['A1', 'B1', 'C1', 'A1', 'B1', 'C1']},
columns = ['key', 'data1', 'data2'])
key data1 data2
0 A 0 A1
1 B 1 B1
2 C 2 C1
3 A 3 A1
4 B 4 B1
5 C 5 C1
df['data2']= df['data2'].str.strip().str.replace("A1","Bad")
key data1 data2
0 A 0 Bad
1 B 1 B1
2 C 2 C1
3 A 3 Bad
4 B 4 B1
5 C 5 C1
问(1)我们如何有条件地替换一个字符串?这意味着,在data2
列中,我想替换A1
,但只替换if "key==A" and "data1">1
。我怎么能这样做?
Q(2)条件替换是否可以应用于多次替换(即,同时用“Bad”替换A1 and A2
但仅在类似条件下?
答案 0 :(得分:3)
您可以使用numpy
和regex
替换来覆盖A1, A2
等。如果我们扩展您的数据以包含A3
的示例:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C', 'A'],
'data1': range(7),
'data2': ['A1', 'B1', 'C1', 'A1', 'B1', 'C1', 'A3']},
columns=['key', 'data1', 'data2'])
df['data2'] = np.where((df['key'] == 'A') & (df['data1'] > 1),
df['data2'].str.replace(r'A\d+','Bad'),
df['data2'])
返回:
key data1 data2
0 A 0 A1
1 B 1 B1
2 C 2 C1
3 A 3 Bad
4 B 4 B1
5 C 5 C1
6 A 6 Bad
答案 1 :(得分:2)
我认为需要两侧的过滤器列只替换过滤的行:
mask = (df['key']=="A") & (df['data1'] > 1)
df.loc[mask, 'data2']= df.loc[mask, 'data2'].str.strip().str.replace("A1","Bad")
print (df)
key data1 data2
0 A 0 A1
1 B 1 B1
2 C 2 C1
3 A 3 Bad
4 B 4 B1
5 C 5 C1
如果需要多次替换,请replace
使用dict
:
df = pd.DataFrame({'key': ['A', 'A', 'C', 'A', 'B', 'C'],
'data1': range(6),
'data2': ['A1', 'A2', 'C1', 'A1', 'B1', 'C1']},
columns = ['key', 'data1', 'data2'])
mask = (df['key']=="A") & (df['data1'] > 0)
df.loc[mask, 'data2']= df.loc[mask, 'data2'].str.strip().replace({"A1":"Bad", "A2":'Bad1'})
或者使用正则表达式:
df.loc[mask, 'data2']= df.loc[mask, 'data2'].str.strip().str.replace(r'^A.*',"Bad")
print (df)
key data1 data2
0 A 0 A1
1 A 1 Bad1
2 C 2 C1
3 A 3 Bad
4 B 4 B1
5 C 5 C1
答案 2 :(得分:0)
如果我们想以下列方式扩展上面的例子:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data1': range(6),
'data2': ['A1', 'B1', 'C1', 'A1', 'B1', 'C1']},
columns = ['key', 'data1', 'data2'])
mask = (df['data1'] > 1)
df.loc[mask, 'data2']= df.loc[mask, 'data2'].str.strip().str.replace("A1",df['key'])
key data1 data2
0 A 0 A1
1 B 1 B1
2 C 2 NaN
3 A 3 NaN
4 B 4 NaN
5 C 5 NaN
我对答案感到非常惊讶,我认为data2的内容将被“key”列的内容所取代(条件data1> 1)。任何想法?