我们如何使用nifi hive流处理器将orcdata加载到hive中

时间:2019-06-18 14:34:38

标签: hive apache-nifi orc

我有orc文件及其架构,我已经尝试将此orc文件加载到本地配置单元中并且工作正常,现在我将生成多个orc文件,并且需要使用nifi put配置单元流处理器将此orc文件加载到配置单元表中?

1 个答案:

答案 0 :(得分:1)

PutHiveStreaming期望传入的流文件为Avro格式。如果您使用PutHive3Streaming,则具有更大的灵活性,但它不接受ORC格式的流文件。相反,这两个处理器都将输入转换为ORC并将其写入Hive中的托管表中。

如果文件已经是ORC格式,则可以使用PutHDFS将其直接放入HDFS。如果您无权直接写入托管表位置,则可以写入临时位置,在其上创建一个外部表,然后使用INSERT INTO myTable FROM SELECT * FROM externalTable或其他方法从该表加载到托管表中