我如何在分类变量中几乎没有超过50个级别的变量的数据集上执行套索/前进/后退模型选择技术

时间:2019-07-01 20:58:20

标签: r machine-learning feature-selection dummy-variable

我有一个包含16列和12000行的数据集,而16个中的12个是分类变量。我的主要动机是执行不同的模型选择技术,并使用R查找具有较高预测误差的模型。

我做了一些研究,发现人们正在谈论对所有类别变量进行虚拟化,但是这到底有什么用呢?在复制套索技术时,我得到的系数大于161,这显然使我的分析遇到了障碍。 在这方面需要帮助,非常感谢。

0 个答案:

没有答案