我有一个包含23个分类可变数据的数据框。我最终想建立一个预测模型(决策树/随机森林)来预测某人是否会参加面试。这是我的目标变量。我将使用Scikit完成此任务。
问题:
由于这些是分类变量,我是否正确地说我需要热切编码我的23个分类变量中的每一个,然后再分成列车,测试和验证集?
我也被告知使用功能重要性,但我不确定我是否在热编码之前或之后使用它?我的理解是,功能重要性将有助于减少热门编码所需的功能数量,换句话说,我在热编码之前使用功能重要性。
但是,我尝试用于功能重要性的RandomForestClassifier()
不适用于字符串:
输入:forest = RandomForestClassifier(n_estimators=250, random_state=0)
forest.fit(X, y)
输出:ValueError: could not convert string to float: 'Single'
请问最好的方法是什么?