标签: r machine-learning feature-selection dummy-variable
我有一个包含16列和12000行的数据集,而16个中的12个是分类变量。我的主要动机是执行不同的模型选择技术,并使用R查找具有较高预测误差的模型。
我做了一些研究,发现人们正在谈论对所有类别变量进行虚拟化,但是这到底有什么用呢?在复制套索技术时,我得到的系数大于161,这显然使我的分析遇到了障碍。 在这方面需要帮助,非常感谢。