在分类模型中,如果我想保留一个分类变量(例如Gender),我需要先创建一个虚拟变量。
我的问题是,这个新的虚拟变量(例如1 =男性,2 =女性)应该被创建为数字向量?我试图将该虚拟变量保留为因子(例如“1”,“2”),但后来我试图对数据集进行特征扩展,但它无法正常工作。
因此,如果我将这些虚拟变量保留为数字向量然后创建模型,它是否会对模型产生任何负面影响?我对此感到担心,因为1对于男性而2或女性实际上不是numeric
值,它们只是类别。
请帮帮我。 这个问题困扰了我两天。顺便说一下,我用R来进行机器学习。