有没有一种方法可以快速决定要用于模型拟合和选择的变量?

时间:2019-12-30 03:05:05

标签: machine-learning model regression

我为一个项目加载了带有156个变量的数据集。目标是找出一个模型来预测测试数据集。我对从哪里开始感到困惑。通常,我将从基本的线性回归模型开始,但是从156列/变量开始,应该如何从模型构建开始?谢谢!

1 个答案:

答案 0 :(得分:1)

这里的问题还很悬而未决。

  1. 您需要确认是否要求解回归或分类。

  2. 您需要对数据集进行一些描述性统计,以找出数据集中具有的值的类型。是否存在离群值,缺失值,价值为十亿美元的列与价值很小的列相对。

  3. 如果您有分类数据,那么您拥有什么类型的分类。分类值的频率计数是多少。

  4. 因此,您清除数据(如果需要)

  5. 发布此文章后,您可能想了解这156个变量之间的相关性(通过皮尔森或卡方,取决于您所拥有的变量的数据类型),并查看它们之间的相关性。

  6. 然后,您可以在查看相关性之后或通过执行PCA(这有助于保留数据集之间的高差异)并将数据集变量减小到较小的维度,选择摆脱某些变量。

  7. 然后,您可能会考虑拟合回归模型或分类模型(具体取决于您的需求),以便首先拥有一个更简单的模型,然后在考虑提高准确性(或将损失最小化)时进行调整