我有一个hive内部表,有大约5亿条记录。 我的配置单元部署在AWS EMR之上。我不想让AWS EMR始终运行。因此,我想备份配置单元内部表数据。
这样做的一种简单方法是创建一个指向S3 Location的外部表,然后使用insert命令将所有记录移动到该外部表中。 当我需要内部表格时,我可以使用这个外部S3表来获取所有数据。
由于此表仅用于备份,我想询问哪种格式存储将是我的最佳选择。
Hive现在支持以下格式
TEXTFILE
SEQUENCEFILE
ORC
PARQUET
AVRO
RCFILE
除了上面提到的方法之外,还有其他方法来备份你的内部表格。
答案 0 :(得分:1)
我认为更改文件格式(您提到的列表)的大小不会有太大差异。 但是,您希望该文件的文件大小和访问类型对您的云帐户结算起着至关重要的作用。
所以请考虑以下,
选择解决方案时需要考虑的事项,您可以购买多少时间
以下是一些具有解压缩速度和空间效率的文件格式,为您选择平衡(意味着时间/空间如上所述)和可用的压缩格式。