应用错误收集

时间：2013-05-30 20:31:04

标签： machine-learning

我正在学习使用Octave应用机器学习技术。在机器学习中，分类问题试图基于其特征对案例进行分类。例如，机器学习算法可能会考虑100个因素来尝试并决定一个人是否会违约贷款。（即，如果该人属于该类，则输出将默认或该类不会默认）。

我已经了解到“错误分析”（即手动分析错误分类的输出）可以帮助识别机器学习分类问题中的错误。

是否存在非分类问题的类比？具体来说，如果机器学习算法试图预测一个值（例如一个人的收入）但是错了，那么是否存在模拟错误分析以试图理解算法失败的原因？

答案 0 :(得分：1)

绝对！如果你记录每个预测的预测距离，你通常可以非常清楚地识别趋势，尽管这种方法通常取决于一种聪明的方式来可视化数据。

例如，意识到虽然你的平均误差是100，但是在你的输入变量之一真的很高或非常低（定性）你的平均误差跳到1000的例子中，你可能需要调整以更好地解释那些高低值。

由于机器学习的大部分都是艺术而非科学，因此很难确切地说出哪种形式的错误分析对您的具体问题有意义，但一般的解决方案是查看受约束样本集的平均误差趋势（即我的网球得分预测器在外面超过90度时的平均误差是多少？）

理论上，你应该选择你的测试，以便状态之间的差异是显而易见的，并会导致明显的变化。例如，如果您不考虑一个变量，您可能需要扫描您的错误与该变量的值，并直观地绘制它以确定它是否看起来很嘈杂，或者是否有明确的趋势来确定是否包含那个变量。

我希望这很清楚，如果您有任何问题或需要澄清，请告诉我。

答案 1 :(得分：0)

有许多工具可用于分析回归结果（您描述的情况是您尝试估算收入的基础）。最常见的是：mean squared error和measures of correlation，例如Pearson和Spearman。

最后，让我强调一点，我只给你最基本的方法，任何好的统计教科书都应该指导你。