如何在多台计算机之间转换数据?

时间:2017-12-22 08:37:37

标签: r windows distributed-computing

后台:我想在R中构建一个简单的分布式环境,它可以在WINDOWS中完成一些“数据大量”的工作。例如,计算“大”矩阵乘法。似乎有各种各样的解决方案,我在他们身上工作了一段时间,但我无法修复它。

我已经尝试过这些: Rserve& RSclient,包裹如雪,​​降雪。

我尝试了几种方法,但是我找不到在客户端之间转换数据的正确解决方案,如果所有数据转换都必须通过主服务器,那么这可能是一场灾难。

问题:是否有任何功能可以在群集中的每两台计算机之间传送矩阵?

Question

我知道也许套接字连接可以工作,但我怎样才能优雅地启动它?我是否必须手动在不同的计算机上启动R脚本,因为WINDOWS中似乎没有SSH?因为我的教授,我必须继续努力。

想知道这样做是否是好习惯?提前谢谢。

1 个答案:

答案 0 :(得分:1)

您可以选择使用SparkR

您将被迫使用Spark API来分发您的数据,并且某些软件包可能没有按预期运行,但它可以完成这项工作。

Spark独立群集由可通过HTTP和多个工作人员访问的主服务器组成。它不是资源共享的理想解决方案,但它比Hadoop +火花解决方案更轻。

最后你可以试试Dataiku,因为它可以通过笔记本电脑,火花集成和数据集管理提供这样的能力。社区版不是合作的,但它们为学校提供免费许可