相对URl爬行问题

时间:2015-10-01 06:06:32

标签: go web-crawler relative-path absolute-path

我正在制作一个抓取所有相对和绝对链接的爬虫。但是如果存在不正确的相对网址,则抓取工具会继续在网站中准备新的绝对网址,该网址处理包含200个响应代码的错误网址。

让我们说,当我尝试抓取http://example.com/example.com时,有一个相对链接:“example / example.php”。当我找到该页面时,我会附加并创建一个新的抓取链接,即http://example.com/example/example.php。问题是页面将再次包含example / example.php,然后将其附加到http://example.com/example/example/example.php

除了内容比较之外,还有更好的方法可以摆脱这种情况吗?

0 个答案:

没有答案