Question

我尝试下载网站的特定部分。但是下载工作正常，该网站具有“特殊性”。该网站受登录保护-且功能严重不足，导致出现的问题是，在几乎70％的情况下，我进入“升级到高级”页面。当wget检索此页面时，它仅显示一个登录站点。这些网站没有自己的网址，只是内容正确的网址。

我正在使用：

wget --level=inf --continue    --backup-converted --html-extension --convert-links --recursive --restrict-file-names=windows  --reject jpg,png,js,gif --wait=10 --random-wait --limit-rate=10k --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0"  --no-parent -e robots=off  --user  --password  <url>

问题不是专门下载该网站。正确下载的站点通常会被那些“购买高级”站点覆盖。这是非常令人沮丧的。该网站尚未激活时间戳，并且该网站的长度未指定正确的内容，如果它是“高级购买”网站，则会显示3k。

我认为--continue可以绕开它，因为它说只有在内容不存在或远程内容大于本地内容时才下载。但是它仍然会定期覆盖正确的内容。

-时间戳不起作用，因为服务器不提供时间戳。

-备份转换似乎没有任何用处。它会生成这些orig文件，但与下一次下载没有什么区别。而且它始终只为前20次下载生成文件，而其余100次则不生成。它说有时对那些3k文件“完全检索文件，无关”，有时重新下载完全正确的文件。

TL：DR：为了不下载<10kB的文件，我必须在查询中添加些什么？

wget-仅从网站下载较新的内容？ /仅在特定文件大小之上？

0 个答案: