Question

如何将文本文件加载到Apache Kudu表？

源文件是否需要先在HDFS空间中？

如果它与其他hadoop生态系统程序（即/ hive，impala）不共享相同的hdfs空间，那么Apache Kudu是否相当于：

hdfs dfs -put /path/to/file

在我尝试加载文件之前？

Answer 1

该文件不需要首先在HDFS中。它可以从边缘节点/本地机器获取.Kudu类似于Hbase。它是一个实时存储，支持键索引记录查找和变异但不能存储文本文件直接在HDFS中。为了Kudu存储文本文件的内容，需要对其进行解析和标记。为此，您需要将Spark执行/ java api与Nifi（或Apache Gobblin）一起执行处理和然后将其存储在Kudu表中。

或

您可以将它与Impala集成，允许您使用Impala使用Impala的SQL语法插入，查询，更新和删除Kudu平板电脑中的数据，作为使用Kudu API构建自定义Kudu应用程序的替代方法。下面是步骤进行：

在hdfs中导入文件
创建外部黑斑羚桌。
然后在表格中插入数据。
使用关键字stored as KUDU和As Select创建kudu表将内容从黑斑羚复制到kudu。

在此链接中，您可以参考更多信息 - https://kudu.apache.org/docs/quickstart.html

将文本文件加载到Apache Kudu表中？

1 个答案: