屏蔽大数据中的电话号码

时间:2014-01-20 10:07:18

标签: encryption aes bigdata sha

我们拥有大型数据集(多列),拥有近5000万个独特的电话号码。我们打算定期(每天或每周)将数据上传到Amazon S3。但首先,我们争抢或掩盖电话号码至关重要,其他字段可以保留原样。
使用水果作为电话号码的类比,我解释了下面的问题。

考虑了选项。
1)通过电话号码汇总所有数据,并为每个号码分配一个唯一值。
问题是这不是一致的方法。

第一次第二次
apple - v1 apple - v1
香蕉-v2樱桃-v2
cherry -v3
这只能是一次性的解决方案。

2)使用SHA-1生成哈希并将其存储在某个本地表中。然后我们可以使用这个本地表稍后从键中引用原始值 问题是即使添加了salt,SHA-1 可能也会出现重复哈希值。不确定是否可以维护唯一哈希表
apple - asjdfaslkdfj
香蕉 - blajsdfkljas
cherry - blajsdfkljas(这是可能的)

3)使用AES加密数据。
是否可以加密一个列,因为AES似乎能够加密整个文件。 另一个问题是加速这么多数据的速度可能变得很慢。我只是在这里大声思考。

有人可以为这个问题推荐合适的解决方案吗?

0 个答案:

没有答案