我想使用Pandas df.apply
但仅限于某些行
作为一个例子,我想做这样的事情,但我的实际问题有点复杂:
import pandas as pd
import math
z = pd.DataFrame({'a':[4.0,5.0,6.0,7.0,8.0],'b':[6.0,0,5.0,0,1.0]})
z.where(z['b'] != 0, z['a'] / z['b'].apply(lambda l: math.log(l)), 0)
在这个例子中我想要的是'a'中的值除以每行中'b'中值的对数,对于'b'为0的行,我只想返回0。
答案 0 :(得分:34)
其他答案非常好,但我想我会添加另一种在某些情况下更快的方法 - 使用广播和屏蔽来达到相同的效果:
import numpy as np
mask = (z['b'] != 0)
z_valid = z[mask]
z['c'] = 0
z.loc[mask, 'c'] = z_valid['a'] / np.log(z_valid['b'])
特别是对于非常大的数据帧,这种方法通常比基于apply()
的解决方案更快。
答案 1 :(得分:19)
您可以在lambda函数中使用if语句。
z['c'] = z.apply(lambda row: 0 if row['b'] in (0,1) else row['a'] / math.log(row['b']), axis=1)
我也排除了1,因为log(1)为零。
输出:
a b c
0 4 6 2.232443
1 5 0 0.000000
2 6 5 3.728010
3 7 0 0.000000
4 8 1 0.000000
答案 2 :(得分:5)
希望这会有所帮助。它简单易读
df['c']=df['b'].apply(lambda x: 0 if x ==0 else math.log(x))
答案 3 :(得分:1)
如果输入值为0,则可以使用带条件的lambda返回0并跳过整个where
子句:
z['c'] = z.apply(lambda x: math.log(x.b) if x.b > 0 else 0, axis=1)
您还必须将结果分配给新列(z['c']
)。
答案 4 :(得分:-1)
您可以使用 numpy
函数 where
:
np.where(z.b != 0, z.a / np.log(z.b), 0)
或pandas
方法mask
和where
:
z.b.mask(z.b != 0, other=z.a / np.log(z.b))
z.b.where(z.b == 0, other=z.a / np.log(z.b))