如何将文本文件加载到Apache Kudu表?
源文件是否需要先在HDFS空间中?
如果它与其他hadoop生态系统程序(即/ hive,impala)不共享相同的hdfs空间,那么Apache Kudu是否相当于:
hdfs dfs -put /path/to/file
在我尝试加载文件之前?
答案 0 :(得分:1)
该文件不需要首先在HDFS中。它可以从边缘节点/本地机器获取.Kudu类似于Hbase。它是一个实时存储,支持键索引记录查找和变异但不能存储文本文件直接在HDFS中。为了Kudu存储文本文件的内容,需要对其进行解析和标记。为此,您需要将Spark执行/ java api与Nifi(或Apache Gobblin)一起执行处理和然后将其存储在Kudu表中。
或
您可以将它与Impala集成,允许您使用Impala使用Impala的SQL语法插入,查询,更新和删除Kudu平板电脑中的数据,作为使用Kudu API构建自定义Kudu应用程序的替代方法。下面是步骤进行:
stored as KUDU
和As Select
创建kudu表
将内容从黑斑羚复制到kudu。在此链接中,您可以参考更多信息 - https://kudu.apache.org/docs/quickstart.html