sklearn编码用于学习的分层功能

时间:2018-10-13 08:18:55

标签: python machine-learning scikit-learn feature-extraction categorical-data

sklearn是否具有有效的方法来编码具有许多唯一值的层次结构特征?

这里是上下文:我有一个汽车价格数据集,我想建立一个(回归和随机森林)模型来预测汽车价格。在数据集中,两个要素是分类的:制造商和模型。例如,制造商包括Nissian,Honda等,模型包括Skyline,Accord等。每个模型都属于制造商,因此在这两个功能之间形成了层次结构。

数据集中有50个不同的品牌和900个不同的模型。我尝试使用sklearn的LabelEncoder和OneHotEncoder对这两个功能进行编码,这导致了非常稀疏的矩阵,每行有900多个虚拟变量。显然,这确实使用了制造商和模型之间的层次结构,这将导致学习模型效率低下。 sklearn是否有更好的方法来编码这两个功能?

0 个答案:

没有答案