应用错误收集

数据太多的数据

时间：2018-05-09 08:13:47

标签： python r

我希望在进行数据工程时了解一般方法。

我有一个数据集，其中一些变量的类别太多，将这些变量包含在预测模型中肯定会增加模型的复杂性，从而导致过度拟合。

虽然通常我会通过绘制图表将这些类别分组到更少的组中，以查看如果这些组中的响应变量有显着差异。是否有更有效的方法来处理这个问题，比如自动进行一些统计测试？

ADDED：简而言之，我希望在变量中对值进行分组或装箱，以便每个组中的响应变量具有非常不同的分布。

1 个答案:

答案 0 :(得分：0)

我不确定我是否通过“自动”理解。但是，不是绘图（如果每个样本有很多属性，这可能是一项艰巨的任务），您可以尝试使用聚类技术自动对样本进行分组，例如K-Means，Hierarchical clustering，SOM（或任何适合的聚类技术）你的问题）。然后，对于每个组，您可以提取任何感兴趣的统计信息。