我正在制作一个抓取所有相对和绝对链接的爬虫。但是如果存在不正确的相对网址,则抓取工具会继续在网站中准备新的绝对网址,该网址处理包含200个响应代码的错误网址。
让我们说,当我尝试抓取http://example.com/example.com时,有一个相对链接:“example / example.php”。当我找到该页面时,我会附加并创建一个新的抓取链接,即http://example.com/example/example.php。问题是页面将再次包含example / example.php,然后将其附加到http://example.com/example/example/example.php。
除了内容比较之外,还有更好的方法可以摆脱这种情况吗?