清理URL以删除个人信息

时间:2012-05-16 18:07:19

标签: java url sanitization pii

是否有规则来识别和删除网址中的任何PII信息?我希望这是通用的,并处理我们可能在互联网上遇到的各种网址。

澄清:我有一个浏览互联网的网址列表,并希望从中删除PII。

2 个答案:

答案 0 :(得分:1)

回答你对snemarch的回复中重述的问题:

  

是的,我理解。我的意思是我需要考虑哪些因素来识别网址中的PII? PII在URls中可能出现的各种方式有哪些?

HTTP GET信息可以通过多种不同方式传输。一些,也可能是大多数,看起来像这样:

  

example.com/form.php?key=value。

其他网站(包括stackoverflow)可能会使用URL重写将链接“example.com/form/value”转换为等效的名称:“example.com/form.php?key=value”。这个URL重写完全取决于服务器的配置,并没有简单的方法来检测和剥离以这种方式呈现的PII。

考虑到这一点,实际上没有办法100%从不同网址的列表中删除所有PII,因为这样的信息在没有任何PII的URL中是难以辨别的。您至少可以删除DEFINITELY PII中的信息,例如“example.com/form.php?key=value”形式的URL。我愿意打赌,任何带有“=”的URL都有一些变量,应该过滤掉。过去,您将不得不手动解析列表的大部分内容。

根据列表的大小以及过滤它的严重程度,您可以研究流行产品的流行mod_rewrite方法并尝试在列表中匹配它们,刮取URL以确定有关URL的其他信息,并执行一些操作尝试猜测URL中可能是变量的复杂且可能丑陋的算法 - 可能考虑用户访问过的类似URL并比较URL的标记。

表示给定标记中文本略有不同的类似网址可能是变量。

祝你好运!

答案 1 :(得分:0)

您不应该通过GET从URL传递任何用户敏感信息。如果您使用POST,则只需确保连接是HTTPS。