在Python中使用factorize()后如何获取原始值?

时间:2017-09-09 19:07:53

标签: python pandas random-forest prediction

我是初学者,尝试使用Python中的Random Forest创建预测模型,使用训练和测试数据集。 train [" ALLOW / BLOCK"]可以取4个预期值中的1个(所有字符串)。测试["允许/阻止"]是需要预测的。

y,_ = pd.factorize(train["ALLOW/BLOCK"])

y
Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64)

我使用predict进行预测。

clf.predict(test[features])

clf.predict(test[features])[0:10]
Out[294]: array([0, 0, 0, 0, 0, 2, 2, 0, 0, 0], dtype=int64)

如何获取原始值而不是数值?以下代码是否实际比较了实际值和预测值?

z,_= pd.factorize(test["AUDIT/BLOCK"])

z==clf.predict(test[features])
Out[296]: array([ True, False, False, ..., False, False, False], dtype=bool) 

1 个答案:

答案 0 :(得分:2)

首先,您需要保存label返回的pd.factorize,如下所示:

y, label = pd.factorize(train["ALLOW/BLOCK"])

然后在得到数字预测后,您可以按label[pred]提取相应的标签:

pred = clf.predict(test[features])
pred_label = label[pred]

pred_label包含具有原始值的预测。

不,您不应该对测试预测进行分解,因为标签很可能会有所不同。请考虑以下示例:

pd.factorize(['a', 'b', 'c'])
# (array([0, 1, 2]), array(['a', 'b', 'c'], dtype=object))

pd.factorize(['c', 'a', 'b'])
# (array([0, 1, 2]), array(['c', 'a', 'b'], dtype=object))

因此标签取决于元素的顺序。