应用错误收集

我正在制作一个抓取所有相对和绝对链接的爬虫。但是如果存在不正确的相对网址，则抓取工具会继续在网站中准备新的绝对网址，该网址处理包含200个响应代码的错误网址。

让我们说，当我尝试抓取http://example.com/example.com时，有一个相对链接：“example / example.php”。当我找到该页面时，我会附加并创建一个新的抓取链接，即http://example.com/example/example.php。问题是页面将再次包含example / example.php，然后将其附加到http://example.com/example/example/example.php。

除了内容比较之外，还有更好的方法可以摆脱这种情况吗？