将文本文件加载到Apache Kudu表中?

时间:2017-07-27 21:44:40

标签: cloudera apache-kudu

如何将文本文件加载到Apache Kudu表?

源文件是否需要先在HDFS空间中?

如果它与其他hadoop生态系统程序(即/ hive,impala)不共享相同的hdfs空间,那么Apache Kudu是否相当于:

hdfs dfs -put /path/to/file

在我尝试加载文件之前?

1 个答案:

答案 0 :(得分:1)

该文件不需要首先在HDFS中。它可以从边缘节点/本地机器获取.Kudu类似于Hbase。它是一个实时存储,支持键索引记录查找和变异但不能存储文本文件直接在HDFS中。为了Kudu存储文本文件的内容,需要对其进行解析和标记。为此,您需要将Spark执行/ java api与Nifi(或Apache Gobblin)一起执行处理和然后将其存储在Kudu表中。

您可以将它与Impala集成,允许您使用Impala使用Impala的SQL语法插入,查询,更新和删除Kudu平板电脑中的数据,作为使用Kudu API构建自定义Kudu应用程序的替代方法。下面是步骤进行:

  1. 在hdfs中导入文件
  2. 创建外部黑斑羚桌。
  3. 然后在表格中插入数据。
  4. 使用关键字stored as KUDUAs Select创建kudu表 将内容从黑斑羚复制到kudu。
  5. 在此链接中,您可以参考更多信息 - https://kudu.apache.org/docs/quickstart.html