如何在保留其唯一性的同时清理ssn?

时间:2019-04-23 13:20:27

标签: python

为减少隐私风险,我应该从输入中清除SSN。我需要以保留唯一性的方式来擦洗它们。例如。如果我有111-11-1119111-11-1119111-11-1118,我们可以将111-11-1119设为1,将111-11-1118设为2。

做到这一点的最佳方法是什么?

2 个答案:

答案 0 :(得分:1)

令牌化或格式保留加密(FPE)是适用于PII数据(如SSN)中主键的匿名技术。两者都可以提供一致性和唯一性。

您可以使用NIST批准的FPE algorithms FF1和FF3,也可以使用python正则表达式生成器库src-yield or hypothesis创建令牌生成器 enter image description here

答案 1 :(得分:0)

要在保留唯一性的同时删除SSN或其他标准化的PII,您将需要加密散列函数。这不是您应该尝试使用递增的ID和dict实现自己的东西。要认真对待PII,您需要做一些研究,以了解加密哈希在做什么以及如何保护数据。

有关先前的讨论,请参见Cryptographic hash functions in Python

其中一些作为介绍可能会有所帮助: