使用pandas数据帧的.loc函数

时间:2016-08-12 17:13:57

标签: python pandas dataframe

我有一个pandas数据框,其中一列是:

 a = [1,0,1,0,1,3,4,6,4,6]

现在我想创建另一个列,使得任何大于0且小于5的值都被赋值为1而休息被赋值为0,即:

a = [1,0,1,0,1,3,4,6,4,6]
b = [1,0,1,0,1,1,1,0,1,0]

现在我已经完成了这个

dtaframe['b'] = dtaframe['a'].loc[0 < dtaframe['a'] < 5] = 1
dtaframe['b'] = dtaframe['a'].loc[dtaframe['a'] >4 or dtaframe['a']==0] = 0

但代码抛出并出错。该怎么办?

3 个答案:

答案 0 :(得分:4)

您可以使用between获取布尔值,然后使用astype将布尔值转换为0/1:

dtaframe['b'] = dtaframe['a'].between(0, 5, inclusive=False).astype(int)

结果输出:

   a  b
0  1  1
1  0  0
2  1  1
3  0  0
4  1  1
5  3  1
6  4  1
7  6  0
8  4  1
9  6  0

修改

对于多个范围,您可以使用pandas.cut

dtaframe['b'] = pd.cut(dtaframe['a'], bins=[0,1,6,9], labels=False, include_lowest=True)

您需要注意定义bins的方式。使用labels=False将返回每个bin的整数指示符,这恰好与您提供的标签相对应。您也可以手动指定每个bin的标签,例如labels=[0,1,2]labels=[0,17,19]labels=['a','b','c']等。如果您手动指定标签,则可能需要使用astype,因为它们将作为类别返回。

或者,您可以合并locbetween来手动指定每个范围:

dtaframe.loc[dtaframe['a'].between(0,1), 'b'] = 0
dtaframe.loc[dtaframe['a'].between(2,6), 'b'] = 1
dtaframe.loc[dtaframe['a'].between(7,9), 'b'] = 2

答案 1 :(得分:2)

当使用比较运算符和布尔逻辑来过滤数据帧时,您无法使用a < myseries < b的pythonic成语。相反,您需要(a < myseries) & (myseries < b)

cond1 = (0 < dtaframe['a'])
cond2 = (dtaframe['a'] <= 5)
dtaframe['b'] = (cond1 & cond2) * 1

答案 2 :(得分:1)

使用np.where

尝试此操作
dtaframe['b'] = np.where(([dtaframe['a'] > 4) | (dtaframe['a']==0),0, dtaframe['a'])