当在pandas列上使用时,Python max()函数失败并且整数失败

时间:2015-12-30 20:28:09

标签: python pandas dataframe max

我正在尝试通过从另一个列中减去现有的dataframe列列来创建新的pandas数据帧列。但是,如果结果为负数,则应将新列值设置为零。

import pandas as pd
data = {'A': [1,2,3], 'B': [3,2,1]}
df = pd.DataFrame(data)

In [4]: df
Out[4]: 
   A  B
0  1  3
1  2  2
2  3  1

如果我通过从'A'中减去'B'来创建新的数据帧列'C',我会得到正确的结果。

df['C'] = df['A'] - df['B']

In[8]: df
Out[7]: 
   A  B  C
0  1  3 -2
1  2  2  0
2  3  1  2

但是,如果我利用max()函数来避免带负数的结果,我会得到“ValueError:系列的真值是不明确的。”

>>> df['C'] = max(df['A'] - df['B'], 0)
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

预期输出为:

   A  B  C
0  1  3  0
1  2  2  0
2  3  1  2

我做错了什么?

4 个答案:

答案 0 :(得分:7)

您需要使用np.maximum进行逐元素最大化比较:

>>> np.maximum(df['A'] - df['B'], 0)
0    0
1    0
2    2
dtype: int64

问题是max它本质上是检查(df['A'] - df['B']) > 0。这将返回一个布尔值数组(不是布尔值),因此返回错误。

答案 1 :(得分:1)

使用np.where

In [8]:
df['C'] = np.where((df['A'] - df['B'] > 0), df['A'] - df['B'], 0)
df

Out[8]:
   A  B  C
0  1  3  0
1  2  2  0
2  3  1  2

内置的max函数对标量而不是类似数组的结构进行操作,因此错误

答案 2 :(得分:0)

您也可以申请:

df['C'] = df.apply(lambda row: max(row['A'] - row['B'], 0), axis=1)

答案 3 :(得分:0)

旧帖子,但没有使用 max 函数:

df.max()

尝试将 max-function 应用于帮助的值:

df.values.max()