初学者指导对性能不佳的模型进行故障排除

时间:2017-04-12 15:12:17

标签: machine-learning azure-machine-learning-studio

我正在创建我的第一个预测模型,其结果非常糟糕。 我需要一些帮助来确定我如何解决这个问题。

我做线性回归&逻辑回归分类,用于预测学生是否通过课程,1表示是,0表示否。

数据集很小,因为我们只有一个类的完整数据,16个特征不到60行,35个通过,25个失败。 我想知道我的数据集是否太小了。

我不想暂时共享数据集,但会将其清理干净,以便完全匿名。

ROC非常非常锯齿状(主要用于对数回归),并且预测的误报率高于其他任何东西。

我很欣赏一些初学者的一般故障排除建议,我可以在专业人士聘用之前尝试。

感谢您提供的任何帮助。

enter image description here

1 个答案:

答案 0 :(得分:0)

我建议一些提示:

  • 在Azure ML中有一个名为“基于过滤器的功能选择”的模块,您可以使用它来对功能进行评分,并检查其中是否存在真正的预测能力,或者甚至只选择得分最高的模块。
  • 如果还没有,请在列车/交叉验证集中拆分并在两者中评估您的模型并将其用作诊断以识别欠拟合(高偏差)或过度拟合(高变异),并根据诊断执行类似的操作:
  • 过度拟合:获取更多数据,使用更少的功能,使用更简单的模型,添加或增加正则化
  • 对于不合身:添加更多功能,使用更复杂的模型,减少正规化。

并且不要忘记,在开始培训以探索和评估您的数据之前,使用散点图来确定它是否确实可分离,执行特征工程和预处理为此问自己:鉴于此功能,人类专家是否能够执行预测?,如果您的答案不是,请转换或删除功能,以便答案是肯定的