Question

我使用H2O和尺寸约为700,000 x~800,000的SVMLight稀疏矩阵。磁盘上的文件大小约为800MB。但是将它导入H2O会占用超过300GB的RAM？这个过程也需要很长时间（约15分钟）才能完成。

我可以使用Matrix软件包在RAM中创建稀疏矩阵并将其快速存储。在这种情况下，稀疏矩阵需要大约1.2GB的RAM。

以下是我的代码：

library(h2o)
h2o.init(nthreads=-1,max_mem_size = "512g")

x <- h2o.importFile('test2.svmlight', parse = TRUE)

这是我的系统：

openjdk version "1.8.0_121"
OpenJDK Runtime Environment (build 1.8.0_121-b13)
OpenJDK 64-Bit Server VM (build 25.121-b13, mixed mode)

Starting H2O JVM and connecting: .. Connection successful!

R is connected to the H2O cluster: 
H2O cluster uptime:         2 seconds 76 milliseconds 
H2O cluster version:        3.14.0.3 
H2O cluster version age:    1 month and 8 days  
H2O cluster name:           H2O_started_from_R_ra2816_fhv677 
H2O cluster total nodes:    1 
H2O cluster total memory:   455.11 GB 
H2O cluster total cores:    24 
H2O cluster allowed cores:  24 
H2O cluster healthy:        TRUE 
H2O Connection ip:          localhost 
H2O Connection port:        54321 
H2O Connection proxy:       NA 
H2O Internal Security:      FALSE 
H2O API Extensions:         XGBoost, Algos, AutoML, Core V3, Core V4 
R Version:                  R version 3.4.1 (2017-06-30)

我很感激任何建议，因为我真的很喜欢H2O，并希望将它用于这个项目。

Answer 1

H2O将数据存储在柱状压缩存储中，并经过优化，可以很好地处理具有大量（数十亿+）行和大量（数千+）列的数据集。

每一列都存储在一堆H2O调用的块中。块是一组连续的行。块可能是稀疏的，因此如果块包含10,000行并且它们都缺失，则该块所需的内存量可能非常小。但是大块仍然需要在那里。

实际上，这意味着H2O稀疏地存储行，但不会稀疏地存储列。因此，对于宽数据，它不会像纯稀疏矩阵包那样有效地存储事物。

在您的具体情况下，800,000列正在推动H2O的限制。

有些人不了解H2O的一件事是它有效地处理分类列。因此，如果您通过手动对数据进行热编码来获得列爆炸，则无需使用H2O执行此操作。另一种数据表示会更有效。

H2O使用稀疏矩阵的RAM太多

1 个答案: