在Pandas DataFrame上更新行子集的列值的有效方法是什么?

时间:2018-02-13 11:52:51

标签: python pandas

当使用Pandas更新特定行子集的列值时,最好的方法是什么?

简单的例子:

import pandas as pd

df = pd.DataFrame({'name' : pd.Series(['Alex', 'John', 'Christopher', 'Dwayne']),
                   'value' : pd.Series([1., 2., 3., 4.])})

目标:根据名称长度和值列本身的初始值更新value列。

以下一行达到了目标:

df.value[df.name.str.len() == 4 ] = df.value[df.name.str.len() == 4] * 1000

但是,该行在LHS和RHS中对整个数据帧进行了两次过滤。我认为这不是最有效的方式。并且它没有'到位'。

基本上我正在寻找相当于R data.table':'='operator:

的pandas
df[nchar(name) == 4, value := value*1000]

对于其他类型的操作:

df[nchar(name) == 4, value := paste0("short_", as.character(value))]

环境:Python 3.6 Pandas 0.22

提前致谢。

2 个答案:

答案 0 :(得分:2)

*=需要loc

df.loc[df.name.str.len() == 4, 'value'] *= 1000
print (df)
          name   value
0         Alex  1000.0
1         John  2000.0
2  Christopher     3.0
3       Dwayne     4.0

编辑:

更一般的解决方案:

mask = df.name.str.len() == 4
df.loc[mask, 'value'] = df.loc[mask, 'value'] * 1000

或者:

df.update(df.loc[mask, 'value'] * 1000)

答案 1 :(得分:2)

这可能是您所需要的:

 df.loc[df.name.str.len() == 4, 'value'] *= 1000

 df.loc[df.name.str.len() == 4, 'value'] = 'short_' + df['value'].astype(str)