根据是否已经看到过滤链接

时间:2013-07-15 18:56:06

标签: php html web-crawler

我正在构建一个简单的网络抓取工具,我正在尝试根据以前是否看到它们来过滤链接。问题是链接可能是相同的,但带有正斜杠,参数。我也想过滤掉邮件。有没有任何已知的,直截了当的做法?我目前正在从事pHp。

编辑: 在查看此内容后,我使用Net_URL2.php来规范化URL: How do I apply URL normalization rules in PHP?

1 个答案:

答案 0 :(得分:1)

简短的回答是否定的,没有直接的方法可以做到这一点。请阅读this article about URL normalization,了解一些难以实现的原因。