标签: php html web-crawler
我正在构建一个简单的网络抓取工具,我正在尝试根据以前是否看到它们来过滤链接。问题是链接可能是相同的,但带有正斜杠,参数。我也想过滤掉邮件。有没有任何已知的,直截了当的做法?我目前正在从事pHp。
编辑: 在查看此内容后,我使用Net_URL2.php来规范化URL: How do I apply URL normalization rules in PHP?
答案 0 :(得分:1)
简短的回答是否定的,没有直接的方法可以做到这一点。请阅读this article about URL normalization,了解一些难以实现的原因。