我有一个数据集,我想使用CV进行特征选择。 所有功能都是分类的,因变量是连续的。直截了当。
问题是我受到其他因素的束缚,这些因素要求一个类别要么完全在模型中,要么根本不在模型中。因此,例如,类别变量城市(代表实际变量的城市)可能具有100,000个类别,因此,一旦您伪造了代码,实际上就是100,000个要素。但是由于外部约束,我不能包括这100,000个中的一些,也不能包括其中的一些。我真的在测试是否应该将整个城市包括在内。
有人知道Python中的某些功能(管道,PCA,LAR等)可以帮助我做到这一点吗?任何文献或示例都将非常有帮助。
到目前为止,我还尝试通过一些非常复杂的代码对不同的模型组合进行硬编码。
对不起,没有显示代码。任何代码在这里都是毫无意义的。