应用错误收集

H2O.ai import_file看起来不像惰性评估，它在做什么？

时间：2019-03-19 23:23:06

标签： python h2o

H2O.ai数据解析到底在做什么？

Import h2o
h2o.init()
df = h2o.import_file(path=myfilepath)

运行上面的代码时，我得到下面的输出，这需要一段时间...

Parse progress: [###################################] 100%

当我对2GB的数据运行时，我的内存大约增加了2GB。我以为H2O.ai应该使用惰性评估？似乎很多信息都存储在内存中（甚至可能是整个数据集），并且显然这不是一个懒惰的评估，因为它需要一段时间才能运行。

H2O.ai文档也不是很有帮助。

http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/h2o.html#h2o.import_file

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html

有人知道这里到底发生了什么吗？

1 个答案:

答案 0 :(得分：2)

这不是懒惰的评价。

它正在读取数据并将数据存储在列压缩的内存分布式键值存储中。

下面是描述整个过程的好照片：

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/architecture.html#how-r-and-python-interacts-with-h2o