我对机器学习还很陌生,目前正在处理由分类数据组成的csv文件格式的数据集。作为预处理的一种方法,我进行了一个热编码,将数据集中的所有变量编码。
此刻,我正在尝试应用随机森林算法将条目分类为4个类之一。我的问题是我不完全了解这些One Hot Encoded变量会发生什么。如何将它们输入算法中?是否可以使buying_price_high和buying_price_low(从buying_price编码为一个热编码)之间产生区别?
我也热编码响应变量。
答案 0 :(得分:0)
(One Hot Encoder)的方法适用于类别变量,类别变量没有大小关系。对于价格变量,建议您使用OrinalEncoder.Sklearn是机器的好软件包,例如sklearn learning.preprocessing.OneHotEncoder或sklearn.preprocessing.OrdinalEncoder
答案 1 :(得分:0)