我一直在研究H20机器学习平台,并试图弄清楚它与R的使用是否允许R处理真正大的数据(>>笔记本电脑上的可用RAM)或者是否仍然受RAM的限制?我认为因为它是记忆中的"这意味着它仍然需要非常大量的RAM或服务器集群?有人有这方面的经验吗?
答案 0 :(得分:4)
是的,h20是in-memory architecture,因此受到物理内存的限制。 它们支持大约15种不同的压缩方案,包括旨在压缩稀疏数据的压缩方案。
他们说一些流媒体支持是“在路线图上但尚未实施”。
如果您的数据集不合适,并且您无法更有效地压缩或编码数据类型(因子,逻辑,拆分到范围,文本预处理),那么您将需要一个大型集群或大型云实例
另外,仅供参考support for R只是一个子集:
关于R:H2O的注释支持类似R的语言 - 不是完整的R语义 - 但是显然数据并行的数据混合方面的R和 当然所有运营商都完全并行和分布。有 一个REPL。您可以使用它来添加或删除列或行,制造 功能,估算缺失值或插入许多R表达式和 让他们按比例运行。
所以,例如尽可能使用他们的预烘焙算法(高性能本机Java实现)而不是通用的R算法代码。
您需要原型制作还是制作? 您可能会问他们是否在R-H2O上有任何参考客户。