我可以直接从hive表中提取数据到H2O吗?

时间:2018-02-21 21:09:33

标签: hadoop hive h2o

我们将数据存储在配置单元文本文件和镶木地板文件中,无论如何直接从这些数据加载到H2O中,还是我们必须经过像csv或pandas数据帧这样的中间步骤?

1 个答案:

答案 0 :(得分:0)

是的,您可以找到所需的所有信息here

H2O目前支持以下文件类型:

  • CSV(分隔)文件(包括GZipped CSV)
  • ORC
  • SVMLight
  • ARFF
  • XLS
  • XLSX
  • Avro版本1.8.0(无多文件解析或列类型修改)
  • 镶木

注意:

  • 仅当H2O作为Hadoop作业运行时,ORC才可用。

  • 用户还可以导入以ORC格式保存的Hive文件。

  • 将并行数据导入集群时:

    • 如果数据是解压缩的csv文件,H2O可以进行偏移读取,因此群集中的每个节点都可以直接读取其部分csv文件。
    • 如果数据是压缩的,H2O必须读取整个文件并在进行并行读取之前将其解压缩。 因此,如果您从HDFS读取非常大的数据文件,最好使用解压缩的csv。但如果数据远离LAN,则最好使用zipped csv。