Hive每个Insert查询在Hdfs文件系统中创建一个新文件

时间:2017-10-07 10:01:24

标签: hadoop hive hdfs

在每个插入查询中,在Hdfs文件系统中使用000000_0_copy *创建一个文件。

这是hive和Hdfs的默认行为吗?

是否存在任何压缩概念,如果是,则comapaction如何工作?

1 个答案:

答案 0 :(得分:0)

HDFS是一个仅附加文件系统,意思是修改(UPDATE / DELETE语句)已经写入的文件的任何部分,必须重写整个文件并替换旧文件,或写入新文件以插入甚至是单一记录。

压实不是一个自动过程。您需要编写自己的代码来查询一个表,然后插入另一个格式,如parquet / orc