我尝试下载网站的特定部分。 但是下载工作正常,该网站具有“特殊性”。 该网站受登录保护-且功能严重不足,导致出现的问题是,在几乎70%的情况下,我进入“升级到高级”页面。 当wget检索此页面时,它仅显示一个登录站点。这些网站没有自己的网址,只是内容正确的网址。
我正在使用:
wget --level=inf --continue --backup-converted --html-extension --convert-links --recursive --restrict-file-names=windows --reject jpg,png,js,gif --wait=10 --random-wait --limit-rate=10k --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" --no-parent -e robots=off --user --password <url>
问题不是专门下载该网站。正确下载的站点通常会被那些“购买高级”站点覆盖。这是非常令人沮丧的。该网站尚未激活时间戳,并且该网站的长度未指定正确的内容,如果它是“高级购买”网站,则会显示3k。
我认为--continue可以绕开它,因为它说只有在内容不存在或远程内容大于本地内容时才下载。但是它仍然会定期覆盖正确的内容。
-时间戳不起作用,因为服务器不提供时间戳。
-备份转换似乎没有任何用处。它会生成这些orig文件,但与下一次下载没有什么区别。而且它始终只为前20次下载生成文件,而其余100次则不生成。它说有时对那些3k文件“完全检索文件,无关”,有时重新下载完全正确的文件。
TL:DR:为了不下载<10kB的文件,我必须在查询中添加些什么?