如何根据数据框和numpy中的协变量对观测进行分类?

时间:2018-03-02 02:33:16

标签: python pandas numpy dataframe

我有一个包含n个观测值的数据集,并说出2个变量X1和X2。我试图根据它们的(X1,X2)值的一组条件对每个观察进行分类。例如,数据集看起来像

df:
Index     X1    X2
1         0.2   0.8
2         0.6   0.2
3         0.2   0.1
4         0.9   0.3

,组由

定义
  • 组1:X1 <0.5&amp; X2&GT = 0.5
  • 组2:X1> = 0.5&amp; X2&GT = 0.5
  • 组3:X1 <0.5&amp; X2小于0.5
  • 组4:X1> = 0.5&amp; X2小于0.5

我想生成以下数据框。

expected result:
Index     X1    X2    Group
1         0.2   0.8   1
2         0.6   0.2   4
3         0.2   0.1   3
4         0.9   0.3   4

另外,对于这类问题使用numpy数组会更好/更快吗?

2 个答案:

答案 0 :(得分:1)

在回答你的上一个问题时,我绝对认为pandas是一个很好的工具;它可以在numpy中完成,但是在使用数据帧时,pandas可以说更直观,而且对于大多数应用程序而言足够快。 pandasnumpy也非常合作。例如,在您的情况下,您可以使用numpy.select来构建pandas列:

import numpy as np
import pandas as pd
# Lay out your conditions
conditions =  [((df.X1 < 0.5) & (df.X2>=0.5)),
               ((df.X1>=0.5) & (df.X2>=0.5)),
               ((df.X1<0.5) & (df.X2<0.5)),
               ((df.X1>=0.5) & (df.X2<0.5))]

# Name the resulting groups (in the same order as the conditions)
choicelist = [1,2,3,4]

df['group']= np.select(conditions, choicelist, default=-1)

# Above, I've the default to -1, but change as you see fit
# if none of your conditions are met, then it that row would be classified as -1

>>> df
   Index   X1   X2  group
0      1  0.2  0.8      1
1      2  0.6  0.2      4
2      3  0.2  0.1      3
3      4  0.9  0.3      4

答案 1 :(得分:0)

喜欢的东西

df[['X1','X2']].gt(0.5).astype(str).sum(1).map({'FalseTrue':1,'TrueFalse':4,'FalseFalse':3,'TrueTrue':2})
Out[56]: 
0    1
1    4
2    3
3    4
dtype: int64