标签: hive parquet amazon-athena presto orc
在AWS S3上假设Parquet文件(用于AWS Athena查询)。
我需要通过更改数值来匿名化具有特定数字字段的记录(更改一位数就足够了)。
10X
答案 0 :(得分:0)
不,这是不可能的。 Parquet的格式有两层,这使得这不可能:编码和压缩。它们都对数据进行重新排序以适应更小的空间,它们之间的区别在于CPU使用率和普遍性。有时数据可以被压缩,因此如果所有值都相同/非常相似,我们每个值需要少于一个字节。更改单个值会导致更多的空间使用,从而无法进行编辑。