将Parquet文件编辑为二进制文件

时间:2018-05-30 07:20:07

标签: hive parquet amazon-athena presto orc

在AWS S3上假设Parquet文件(用于AWS Athena查询)。

我需要通过更改数值来匿名化具有特定数字字段的记录(更改一位数就足够了)。

  1. 我可以将镶木地板文件扫描为二进制文件并找到数值吗?或者压缩会使找不到这样的字符串?
  2. 假设我可以做#1 - 我可以通过在二进制级别更改此数字上的数字而不破坏镶木地板文件来对记录进行匿名化吗?
  3. 10X

1 个答案:

答案 0 :(得分:0)

不,这是不可能的。 Parquet的格式有两层,这使得这不可能:编码和压缩。它们都对数据进行重新排序以适应更小的空间,它们之间的区别在于CPU使用率和普遍性。有时数据可以被压缩,因此如果所有值都相同/非常相似,我们每个值需要少于一个字节。更改单个值会导致更多的空间使用,从而无法进行编辑。