在机器学习中:是否存在非分类任务的模拟到错误分析?

时间:2013-05-30 20:31:04

标签: machine-learning

我正在学习使用Octave应用机器学习技术。在机器学习中,分类问题试图基于其特征对案例进行分类。例如,机器学习算法可能会考虑100个因素来尝试并决定一个人是否会违约贷款。 (即,如果该人属于该类,则输出将默认或该类不会默认)。

我已经了解到“错误分析”(即手动分析错误分类的输出)可以帮助识别机器学习分类问题中的错误。

是否存在非分类问题的类比?具体来说,如果机器学习算法试图预测一个值(例如一个人的收入)但是错了,那么是否存在模拟错误分析以试图理解算法失败的原因?

2 个答案:

答案 0 :(得分:1)

绝对!如果你记录每个预测的预测距离,你通常可以非常清楚地识别趋势,尽管这种方法通常取决于一种聪明的方式来可视化数据。

例如,意识到虽然你的平均误差是100,但是在你的输入变量之一真的很高或非常低(定性)你的平均误差跳到1000的例子中,你可能需要调整以更好地解释那些高低值。

由于机器学习的大部分都是艺术而非科学,因此很难确切地说出哪种形式的错误分析对您的具体问题有意义,但一般的解决方案是查看受约束样本集的平均误差趋势(即我的网球得分预测器在外面超过90度时的平均误差是多少?)

理论上,你应该选择你的测试,以便状态之间的差异是显而易见的,并会导致明显的变化。例如,如果您不考虑一个变量,您可能需要扫描您的错误与该变量的值,并直观地绘制它以确定它是否看起来很嘈杂,或者是否有明确的趋势来确定是否包含那个变量。

我希望这很清楚,如果您有任何问题或需要澄清,请告诉我。

答案 1 :(得分:0)

有许多工具可用于分析回归结果(您描述的情况是您尝试估算收入的基础)。最常见的是:mean squared errormeasures of correlation,例如PearsonSpearman

最后,让我强调一点,我只给你最基本的方法,任何好的统计教科书都应该指导你。