我有一个像这样的pandas数据框:
dx1 dx2 dx3 dx4 dx5 dx6 dx7
0 25041 40391 5856 0 V4511 V5867 30000
1 25041 40391 25081 5856 5363 3572 0
2 25041 40391 42822 0 5856 0 0
3 25061 40391 0 0 0 0 0
4 25041 40391 0 5856 25081 V4511 25051
我想为像5856这样的单元格值创建额外的列。因此,如果在任何dxs列中的特定行中出现5856,则会有一个值为0或0的列5856。我正在使用此代码。它不会给出任何错误,但会发出警告,并且不会以正确的方式填充新列。
X11['5856'] = np.NAN
i = 0
for value in zip(X11.loc[:,'dx1':'dx59']):
if value == 5856:
X11['5856'][i] = 1
else:
X11['5856'][i] = 0
i+1
我得到的变化就是:
C:\Anaconda3\lib\site-packages\ipykernel\__main__.py:8: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
我得到5856列,其值为:0,NaN,NaN .....
这是预期的结果:实际上我想为不同的单元格值创建多个列,如25041,5365等。
dx1 dx2 dx3 dx4 dx5 dx6 dx7 5856
0 25041 40391 5856 0 V4511 V5867 30000 1
1 25041 40391 25081 5856 5363 3572 0 1
2 25041 40391 42822 0 5856 0 0 1
3 25061 40391 0 0 0 0 0 0
4 25041 40391 0 5856 25081 V4511 25051 1
答案 0 :(得分:1)
要在数据框中查找特定值,我会使用.isin
方法,如下所示:
# Add a column
df['5856'] = df.isin([5856]).any(1)
这将返回一个布尔序列,检查每行中是否存在所需的值。然后,您只需将相对True
或False
值替换为1和0。