我希望在进行数据工程时了解一般方法。
我有一个数据集,其中一些变量的类别太多,将这些变量包含在预测模型中肯定会增加模型的复杂性,从而导致过度拟合。
虽然通常我会通过绘制图表将这些类别分组到更少的组中,以查看如果这些组中的响应变量有显着差异。是否有更有效的方法来处理这个问题,比如自动进行一些统计测试?
ADDED:简而言之,我希望在变量中对值进行分组或装箱,以便每个组中的响应变量具有非常不同的分布。
答案 0 :(得分:0)
我不确定我是否通过“自动”理解。但是,不是绘图(如果每个样本有很多属性,这可能是一项艰巨的任务),您可以尝试使用聚类技术自动对样本进行分组,例如K-Means,Hierarchical clustering,SOM(或任何适合的聚类技术)你的问题)。然后,对于每个组,您可以提取任何感兴趣的统计信息。