我正在使用httrack下载此网站: http://4minutearticles.com/
然而,问题是作者已经链接回他网站每个页面的主页
例如http://4minutearticles.com/ext/
父目录链接重定向到主页面 并且软件再次开始下载
如何防止此循环发生?
答案 0 :(得分:3)
在下面提供的链接上阅读问题的答案:
“我有重复的文件!发生了什么事?”
链接:http://www.httrack.com/html/faq.html#Q1b11
另请参阅以下链接中的“过滤器:高级”:
http://www.httrack.com/html/filters.html
它可以帮助您解决问题。
答案 1 :(得分:1)
您可以使用过滤器阻止HTTRACK下载相同的文件或文件夹。您可以通过单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后打开“排除链接”按钮来根据需要设置规则。
答案 2 :(得分:0)
顶级索引通常就是这种情况(index.html和 索引2.HTML)。
这是一个常见问题,但这不容易避免!
例如,http://www.foobar.com/和 http://www.foobar.com/index.html可能是相同的页面。但如果链接 在网站上提到http://www.foobar.com/和。{ http://www.foobar.com/index.html,这两页将被抓住。和 因为http://www.foobar.com/必须有一个名称,如您所愿 在本地浏览网站(/会给出一个目录列表,不是 索引本身!),HTTrack必须找到一个。因此,两个index.html 将生成,一个用-2表示该文件必须是 重命名。
考虑http://www.foobar.com/和{}可能是个好主意 http://www.foobar.com/index.html是相同的链接,以避免 重复的文件,不是吗?不,因为顶级索引(/)可以参考 任何文件名,如果index.html通常是默认名称, 可以选择index.htm,也可以选择index.php3,mydog.jpg或其他任何东西 可以想象。 (一些网站管理员真的很疯狂)
注意:在极少数情况下,可以找到重复的数据文件 网站重定向到另一个文件。这个问题应该是罕见的,也可能是 避免使用过滤器。
另请参阅:Updating a project