是否有任何算法可以根据一个自变量预测多变量(响应变量)

时间:2015-07-06 17:56:30

标签: r algorithm prediction cross-validation

让我用一个例子详细询问这个问题:

我有一个包含列(a,b,c,d,e,f,g)的历史数据集

现在我必须根据'a'的值来预测(b,c,d,e,f,g)。

用现实世界的例子替换a,b,c,d,e,f,g。

根据租金数量和每小时租金成本,考虑一个包含自行车租赁店一天收入的数据集。

现在我的目标是预测每个月的租金和每小时的费用,以达到我的收入目标5万美元。

这可以吗?只需要一些指导如何做到

2 个答案:

答案 0 :(得分:2)

你基本上想要最大化:

P(B|A)*P(C|A,B)*P(D|A,B,C)*P(E|A,B,C,D)*P(F|A,B,C,D,E)*P(G|A,B,C,D,E,F)

如果数据B,C,D,E,F,G都是i.i.d. (但确实取决于A)你基本上试图最大化:

P = P(B|A)*P(C|A)*P(D|A)*P(E|A)*P(F|A)*P(G|A)

解决问题的一种方法是使用Supervised Learning

根据您的历史数据训练一组classifiers(或regressors,具体取决于B,C,D,E,F,G的值:A->B, A->C ... A->G,以及何时给定一些值a的查询,使用所有分类器/回归量来预测b,c,d,e,f,g的值。

"技巧"是为多个输出使用多个学习者。请注意,在I.I.D因变量的情况下,这样做没有任何损失,因为每隔P(Z|A)最大化,也会最大化P

如果数据不是iid,则最大化P(B|A)*P(C|A,B)*P(D|A,B,C)*P(E|A,B,C,D)*P(F|A,B,C,D,E)*P(G|A,B,C,D,E,F)的问题是NP-Hard,并且可以从Hamiltonian-Path ProblemP(X_i|X_i-1,...,X_1)> 0缩小,如果有优势的话(X_i-1,X_i),寻找非零路径。)

答案 1 :(得分:0)

这是一个典型的分类问题,一个简单的例子是“如果a> 0.5然后b = 1且c = 0 ......而如果a <= 0.5,那么b = 0且c = 1 ......” 你可能想看看nnet或h2o。