使用时间序列实现在线学习

时间:2015-10-16 10:59:04

标签: python r machine-learning scikit-learn

我对时间序列数据存在分类问题。

每个示例都有10个变量,这些变量以不规则的间隔进行测量,最后将对象分为2个可能类别中的1个(二进制分类)。

我只有在训练期间要学习的最后一课。但是当给出一个新的例子时,我想在每个时间戳(在线方式)进行预测。因此,如果新示例有25个测量值,我想对其类进行25次预测;每个时间戳一个。

我目前实现这一目的的方法是使用其10个变量的测量值的最小值,平均值和最大值,直到该点为分类特征。这是最佳的吗?什么是更好的方式。

1 个答案:

答案 0 :(得分:1)

如果你必须在每个时间戳上做出预测,那么这不会成为时间序列问题(除非你打算使用先前观察的序列来进行下一次预测,在这种情况下你需要训练一个基于序列的模型)。假设您只能根据您观察到的最终数据训练模型,可能会有很多方法,但我建议您使用具有大量树的随机森林以及每棵树中的3或4个变量。这样,即使某些变量没有为您提供所需的输入,其他树仍然可以进行相当准确的预测。除此之外,还有许多合奏方法。

你目前的做法可能是一个非常宽松的近似和实用,但没有多少统计意义。