H2O与R:内存要求

时间:2015-01-03 20:36:45

标签: r in-memory h2o

我一直在研究H20机器学习平台,并试图弄清楚它与R的使用是否允许R处理真正大的数据(>>笔记本电脑上的可用RAM)或者是否仍然受RAM的限制?我认为因为它是记忆中的"这意味着它仍然需要非常大量的RAM或服务器集群?有人有这方面的经验吗?

1 个答案:

答案 0 :(得分:4)

是的,h20是in-memory architecture,因此受到物理内存的限制。 它们支持大约15种不同的压缩方案,包括旨在压缩稀疏数据的压缩方案。

他们说一些流媒体支持是“在路线图上但尚未实施”。

如果您的数据集不合适,并且您无法更有效地压缩或编码数据类型(因子,逻辑,拆分到范围,文本预处理),那么您将需要一个大型集群或大型云实例

另外,仅供参考support for R只是一个子集:

  

关于R:H2O的注释支持类似R的语言 - 不是完整的R语义 -   但是显然数据并行的数据混合方面的R和   当然所有运营商都完全并行和分布。有   一个REPL。您可以使用它来添加或删除列或行,制造   功能,估算缺失值或插入许多R表达式和   让他们按比例运行。

所以,例如尽可能使用他们的预烘焙算法(高性能本机Java实现)而不是通用的R算法代码。

您需要原型制作还是制作? 您可能会问他们是否在R-H2O上有任何参考客户。