使用np.histogram离散连续属性 - 如何应用于新数据点?

时间:2015-09-15 12:58:33

标签: numpy pandas scikit-learn discretization

继续How to do discretization of continuous attributes in sklearn?

在我学习"之后来自火车数据的我的箱子,使用np.histogram(A['my_var'])如何在我的测试集上应用它?在哪个bin是每个数据点的my_var属性?如果重要的话,我的火车和测试数据都在熊猫数据框中。

由于

1 个答案:

答案 0 :(得分:0)

糟糕。这很容易。

hist = np.histogram(A['my_var'])
A.loc[:, 'my_bin'] = np.digitize(A['my_var'], hist[1])