我有一个pandas数据框,其中一列是:
a = [1,0,1,0,1,3,4,6,4,6]
现在我想创建另一个列,使得任何大于0且小于5的值都被赋值为1而休息被赋值为0,即:
a = [1,0,1,0,1,3,4,6,4,6]
b = [1,0,1,0,1,1,1,0,1,0]
现在我已经完成了这个
dtaframe['b'] = dtaframe['a'].loc[0 < dtaframe['a'] < 5] = 1
dtaframe['b'] = dtaframe['a'].loc[dtaframe['a'] >4 or dtaframe['a']==0] = 0
但代码抛出并出错。该怎么办?
答案 0 :(得分:4)
您可以使用between
获取布尔值,然后使用astype
将布尔值转换为0/1:
dtaframe['b'] = dtaframe['a'].between(0, 5, inclusive=False).astype(int)
结果输出:
a b
0 1 1
1 0 0
2 1 1
3 0 0
4 1 1
5 3 1
6 4 1
7 6 0
8 4 1
9 6 0
修改强>
对于多个范围,您可以使用pandas.cut
:
dtaframe['b'] = pd.cut(dtaframe['a'], bins=[0,1,6,9], labels=False, include_lowest=True)
您需要注意定义bins
的方式。使用labels=False
将返回每个bin的整数指示符,这恰好与您提供的标签相对应。您也可以手动指定每个bin的标签,例如labels=[0,1,2]
,labels=[0,17,19]
,labels=['a','b','c']
等。如果您手动指定标签,则可能需要使用astype
,因为它们将作为类别返回。
或者,您可以合并loc
和between
来手动指定每个范围:
dtaframe.loc[dtaframe['a'].between(0,1), 'b'] = 0
dtaframe.loc[dtaframe['a'].between(2,6), 'b'] = 1
dtaframe.loc[dtaframe['a'].between(7,9), 'b'] = 2
答案 1 :(得分:2)
当使用比较运算符和布尔逻辑来过滤数据帧时,您无法使用a < myseries < b
的pythonic成语。相反,您需要(a < myseries) & (myseries < b)
cond1 = (0 < dtaframe['a'])
cond2 = (dtaframe['a'] <= 5)
dtaframe['b'] = (cond1 & cond2) * 1
答案 2 :(得分:1)
使用np.where:
尝试此操作dtaframe['b'] = np.where(([dtaframe['a'] > 4) | (dtaframe['a']==0),0, dtaframe['a'])