Question

在尝试使用csv文件编码后，我决定执行手动替换某些字符的编码方法。

数据框的外观如下：

df = pd.DataFrame({'a' : 'bÃ‰d encoded',
               'b' : ['foo', 'bar'] * 3,
               'c' : 'bÃ‰d encoded too'})


              a    b                 c
0  bÃ‰d encoded  foo  bÃ‰d encoded too
1  bÃ‰d encoded  bar  bÃ‰d encoded too
2  bÃ‰d encoded  foo  bÃ‰d encoded too
3  bÃ‰d encoded  bar  bÃ‰d encoded too
4  bÃ‰d encoded  foo  bÃ‰d encoded too
5  bÃ‰d encoded  bar  bÃ‰d encoded too

如果我唯一的问题是列“ a”，则此功能就足够了：

def force_good_e(row):
    col = row['a']
    if 'Ã‰' in col:
        col = col.replace('Ã‰','a') 
    return col

df['a'] = df.apply(force_good_e, axis=1)

但随后我需要为列'c'提供另一个功能

我对此有所改进

def force_good_es(row, column):
    col = row[column]
    if 'Ã‰' in col:
        col = col.replace('Ã‰','a') 
    return col


df['a'] = df.apply(lambda x: force_good_es(x,'a'), axis=1)
df['c'] = df.apply(lambda x: force_good_es(x,'c'), axis=1)

但这让我想知道，还有更好的方法吗？

即无需制作一行

df[n] = df.apply(lambda x: force_good_es(x,n), axis=1)

每个需要修复的n列。

Answer 1

您可以使用str.replace

df['a'] = df['a'].str.replace('Ã‰','a')
df['c'] = df['c'].str.replace('Ã‰','a')

或像评论中提到的@wen一样。

df = df.replace({'Ã‰':'a'},regex=True)

Answer 2

如果该字符出现在所有列中，但您只想在选定的列中替换它，并且要使用apply：

df.iloc[:,[0,2]].apply(lambda x: x.str.replace('Ã‰','a'), axis=1)

第一列和第三列中Ã‰的出现将由a代替。

在多列上使用df.apply的更好方法是什么？

2 个答案: