我收到包含PSV数据文件的GZipped文件,必须将其转储到我的Redshift数据库中。
为了优化这些文件中的Redshift数据加载,我需要根据行数将这些GZipped文件拆分为多个文件,而不解压缩>>拆分>>压缩。
有没有办法根据行数直接拆分GZIP文件,而不解压缩?
我在Unix机器上获取源文件,从中我将数据加载到AWS S3然后再加载到Redshift。
答案 0 :(得分:0)
不是,不。无论您选择将其拆分,在该点之后的压缩数据很可能会引用该点之前的数据中的匹配字符串。没有必须重新压缩的逃脱。