我需要将GLM放在不适合我计算机内存的数据上。通常为了解决这个问题,我会对数据进行采样,拟合模型,然后在不同的样本上进行测试。这对我而言是R的主要限制,这就是为什么装配GLM的SAS一直是首选,因为它不会因为不适合内存的数据而绊倒。
我一直在努力想办法在我的本地计算机上用R解决这个问题,并想知道Sparklyr是否可以用来解决内存问题?我意识到Spark应该在集群环境等中使用,但直接起来 - 可以使用Sparklyr来处理我本地机器上的数据,否则这些数据不适合其内存?
答案 0 :(得分:0)
Spark和Sparklyr非常适合分发负载,但不太可能在单个Spark实例的一个盒子上解决您的问题。你可能有更好的运气H2O https://cran.r-project.org/web/packages/h2o/index.html