为减少隐私风险,我应该从输入中清除SSN。我需要以保留唯一性的方式来擦洗它们。例如。如果我有111-11-1119
,111-11-1119
和111-11-1118
,我们可以将111-11-1119
设为1,将111-11-1118
设为2。
做到这一点的最佳方法是什么?
答案 0 :(得分:1)
令牌化或格式保留加密(FPE)是适用于PII数据(如SSN)中主键的匿名技术。两者都可以提供一致性和唯一性。
您可以使用NIST批准的FPE algorithms FF1和FF3,也可以使用python正则表达式生成器库src-yield or hypothesis创建令牌生成器
答案 1 :(得分:0)
要在保留唯一性的同时删除SSN或其他标准化的PII,您将需要加密散列函数。这不是您应该尝试使用递增的ID和dict实现自己的东西。要认真对待PII,您需要做一些研究,以了解加密哈希在做什么以及如何保护数据。
有关先前的讨论,请参见Cryptographic hash functions in Python
其中一些作为介绍可能会有所帮助: