使用apache mahout进行增量监督学习的用例

时间:2013-01-25 13:26:52

标签: analytics mahout classification

商业案例: 预测现场油耗。

说燃料消耗C,取决于各种因素x1,x2,... xn。从数学上讲,C = F {x1,x2,... xn}。我没有任何等式来表达这一点。

我确实有历史数据集,从中可以得到C与x1,x2等的相关性.C,x1,x2,..都是定量的。对于像我这样具有有限统计知识的人来说,找出相关性对于n变量方程似乎很难。

所以,我正在考虑采用一些有监督的机器学习技术。我将训练一个带有历史数据的分类器,以预测下一次消费。

问题:我是否以正确的方式思考? 问题:如果这是正确的,我的系统应该是一个不断发展的系统。因此,我将提供给系统的更真实的数据,这将改进我的模型,以便下次做出更好的预测。这是正确的理解吗?

如果上述陈述是真的,那么Mahout中的AdaptiveLogisticRegression算法对我有帮助吗?

请求专家提出建议!

提前致谢。

1 个答案:

答案 0 :(得分:1)

好的,相关性不是预测模型。相关性简单地归因于基于协方差的数据集之间的某种关系。

为了开发预测模型,您需要执行的是回归。

最简单的回归形式是线性单变量,其中C = F(x1)。这可以在Excel中轻松完成。但是,您声明C是几个变量的函数。为此,您可以使用线性多元回归。有标准的包可以执行此操作(例如在Excel中),或者您可以使用Matlab等。

现在,我们假设C和X的组件(输入向量)之间存在“线性”关系。如果关系不是线性的,那么你需要更复杂的方法(非线性回归),这可能很好地采用机器学习方法。

最后,一些系列表现出自相关性。如果是这种情况,那么您可能会忽略C = F(x1,x2,x3 ... xn)关系,而是使用ARMA等时间序列技术直接对C函数本身进行建模。复杂的变种。

我希望这有帮助, Srikant Krishna