单标签多类分类随机森林python

时间:2019-10-02 12:02:42

标签: python machine-learning scikit-learn random-forest multiclass-classification

我对机器学习还很陌生,目前正在处理由分类数据组成的csv文件格式的数据集。作为预处理的一种方法,我进行了一个热编码,将数据集中的所有变量编码。

此刻,我正在尝试应用随机森林算法将条目分类为4个类之一。我的问题是我不完全了解这些One Hot Encoded变量会发生什么。如何将它们输入算法中?是否可以使buying_price_high和buying_price_low(从buying_price编码为一个热编码)之间产生区别?

我也热编码响应变量。

2 个答案:

答案 0 :(得分:0)

(One Hot Encoder)的方法适用于类别变量,类别变量没有大小关系。对于价格变量,建议您使用OrinalEncoder.Sklearn是机器的好软件包,例如sklearn learning.preprocessing.OneHotEncoder或sklearn.preprocessing.OrdinalEncoder

答案 1 :(得分:0)

我想您在理解One Hot Encoder时遇到问题。假设您有4个类,一个热编码器将执行哪些操作,它将这些标签转换为二进制数,而LabelEncoder将给它们的标签为0、1、2、3,依此类推。最好使用One Hot编码器,因为ML模型将给标签3赋予比标签2高的权重。

Using Label Encoder

One Hot encoder