线性回归 - 来自数据库的大训练数据集

时间:2016-07-07 16:21:29

标签: python r cassandra linear-regression bigdata

我在Cassandra数据库中有一个因变量(连续)和大约100个独立变量(离散)的数据。数据将从各种服务器添加到数据库中,我每天将获得数百万个数据点。

我计划使用任何给定日的最近3天数据给出自变量值来预测因变量值。我做了一些研究,并认为线性回归对我来说是最好的选择(是吗?)。我想使用Python / R作为编程工具,因为他们有现有的实现。

现在我的问题是

  1. 我每天将有大约300万个样本来训练模型。从数据库检索数据和训练模型的最佳方法是什么?在实施方面我有哪些可能的选择?
  2. 我可以使用以前训练过的模型重量进行第二天的训练吗?如果是,我的选择是什么?
  3. 提前致谢。

0 个答案:

没有答案