分类变量的Scikit分类 - 特征重要性和热编码 - 首先?

时间:2018-03-29 19:59:11

标签: scikit-learn

我有一个包含23个分类可变数据的数据框。我最终想建立一个预测模型(决策树/随机森林)来预测某人是否会参加面试。这是我的目标变量。我将使用Scikit完成此任务。

问题:

由于这些是分类变量,我是否正确地说我需要热切编码我的23个分类变量中的每一个,然后再分成列车,测试和验证集?

我也被告知使用功能重要性,但我不确定我是否在热编码之前或之后使用它?我的理解是,功能重要性将有助于减少热门编码所需的功能数量,换句话说,我在热编码之前使用功能重要性。

但是,我尝试用于功能重要性的RandomForestClassifier()不适用于字符串:

输入forest = RandomForestClassifier(n_estimators=250, random_state=0) forest.fit(X, y)

输出ValueError: could not convert string to float: 'Single'

请问最好的方法是什么?

0 个答案:

没有答案