标签: python r cassandra linear-regression bigdata
我在Cassandra数据库中有一个因变量(连续)和大约100个独立变量(离散)的数据。数据将从各种服务器添加到数据库中,我每天将获得数百万个数据点。
我计划使用任何给定日的最近3天数据给出自变量值来预测因变量值。我做了一些研究,并认为线性回归对我来说是最好的选择(是吗?)。我想使用Python / R作为编程工具,因为他们有现有的实现。
现在我的问题是
提前致谢。