wget-仅从网站下载较新的内容? /仅在特定文件大小之上?

时间:2018-08-04 20:15:08

标签: download wget

我尝试下载网站的特定部分。 但是下载工作正常,该网站具有“特殊性”。 该网站受登录保护-且功能严重不足,导致出现的问题是,在几乎70%的情况下,我进入“升级到高级”页面。 当wget检索此页面时,它仅显示一个登录站点。这些网站没有自己的网址,只是内容正确的网址。

我正在使用:

wget --level=inf --continue    --backup-converted --html-extension --convert-links --recursive --restrict-file-names=windows  --reject jpg,png,js,gif --wait=10 --random-wait --limit-rate=10k --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0"  --no-parent -e robots=off  --user  --password  <url>

问题不是专门下载该网站。正确下载的站点通常会被那些“购买高级”站点覆盖。这是非常令人沮丧的。该网站尚未激活时间戳,并且该网站的长度未指定正确的内容,如果它是“高级购买”网站,则会显示3k。

我认为--continue可以绕开它,因为它说只有在内容不存在或远程内容大于本地内容时才下载。但是它仍然会定期覆盖正确的内容。

-时间戳不起作用,因为服务器不提供时间戳。

-备份转换似乎没有任何用处。它会生成这些orig文件,但与下一次下载没有什么区别。而且它始终只为前20次下载生成文件,而其余100次则不生成。它说有时对那些3k文件“完全检索文件,无关”,有时重新下载完全正确的文件。

TL:DR:为了不下载<10kB的文件,我必须在查询中添加些什么?

0 个答案:

没有答案