如何防止Httrack再次下载同一文件?

时间:2012-08-10 03:25:07

标签: html css scripting downloading

我正在使用httrack下载此网站: http://4minutearticles.com/

然而,问题是作者已经链接回他网站每个页面的主页

例如http://4minutearticles.com/ext/

父目录链接重定向到主页面 并且软件再次开始下载

如何防止此循环发生?

3 个答案:

答案 0 :(得分:3)

在下面提供的链接上阅读问题的答案:

“我有重复的文件!发生了什么事?”

链接:http://www.httrack.com/html/faq.html#Q1b11

另请参阅以下链接中的“过滤器:高级”:

http://www.httrack.com/html/filters.html

它可以帮助您解决问题。

答案 1 :(得分:1)

您可以使用过滤器阻止HTTRACK下载相同的文件或文件夹。您可以通过单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后打开“排除链接”按钮来根据需要设置规则。

答案 2 :(得分:0)

  

顶级索引通常就是这种情况(index.html和   索引2.HTML)。

     

这是一个常见问题,但这不容易避免!

     

例如,http://www.foobar.com/和   http://www.foobar.com/index.html可能是相同的页面。但如果链接   在网站上提到http://www.foobar.com/和。{   http://www.foobar.com/index.html,这两页将被抓住。和   因为http://www.foobar.com/必须有一个名称,如您所愿   在本地浏览网站(/会给出一个目录列表,不是   索引本身!),HTTrack必须找到一个。因此,两个index.html   将生成,一个用-2表示该文件必须是   重命名。

     

考虑http://www.foobar.com/和{}可能是个好主意   http://www.foobar.com/index.html是相同的链接,以避免   重复的文件,不是吗?不,因为顶级索引(/)可以参考   任何文件名,如果index.html通常是默认名称,   可以选择index.htm,也可以选择index.php3,mydog.jpg或其他任何东西   可以想象。 (一些网站管理员真的很疯狂)

     

注意:在极少数情况下,可以找到重复的数据文件   网站重定向到另一个文件。这个问题应该是罕见的,也可能是   避免使用过滤器。

另请参阅:Updating a project