应用错误收集

我如何在分类变量中几乎没有超过50个级别的变量的数据集上执行套索/前进/后退模型选择技术

时间：2019-07-01 20:58:20

标签： r machine-learning feature-selection dummy-variable

我有一个包含16列和12000行的数据集，而16个中的12个是分类变量。我的主要动机是执行不同的模型选择技术，并使用R查找具有较高预测误差的模型。

我做了一些研究，发现人们正在谈论对所有类别变量进行虚拟化，但是这到底有什么用呢？在复制套索技术时，我得到的系数大于161，这显然使我的分析遇到了障碍。在这方面需要帮助，非常感谢。

0 个答案:

没有答案