似乎wget忽略了我的--wait和--random-wait参数

时间:2016-04-20 14:10:01

标签: web-scraping wget

c:\Users\mds\Downloads\foo\wget -U "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36" --recursive --level=0 --page-requisites --html-extension --convert-links --no-parent --restrict-file-names=windows  --wait=80 --random-wait --output-file="logfile.txt" https://www.gnu.org/software/wget/manual

我试图变得更好并指定一个八十秒的等待时间+ --random-wait提供的随机因素。

但是当我查看日志文件时,似乎wget正在以尽可能快的速度敲定请求。例如,22:01:17+立即发出了大量请求。我能找到的所有文档都说参数值以秒为单位,而不是毫秒。

下载了从gnu站点引用的二进制文件(不是sourceforge)

  

C:\ Users \ mds \ Downloads \ foo> wget --version GNU Wget 1.17.1构建于   的mingw32。

     

+ digest -gpgme + https + ipv6 + iri + large-file + metalink -nls + ntlm   + opie -psl + ssl / openssl

     

Wgetrc:       / win32dev / misc / wget / out64 / etc / wgetrc(system)编译:       x86_64-w64-mingw32-gcc -DHAVE_CONFIG_H       -DSYSTEM_WGETRC =" / win32dev /杂项/ wget的/ out64的/ etc / wgetrc"       -DLOCALEDIR =" / win32dev /杂项/ wget的/ out64 /共享/区域" -一世。 -I ../ LIB       -I ../ lib -I / win32dev / misc / wget / out64 / include       -I / win32dev /杂项/ wget的/ out64 /包括       -I / win32dev /杂项/ wget的/ out64 /包括       -I / win32dev / misc / wget / out64 / include -DHAVE_LIBSSL -DNDEBUG链接:       x86_64-w64-mingw32-gcc -I / win32dev / misc / wget / out64 / include       -I / win32dev / misc / wget / out64 / include -DHAVE_LIBSSL -DNDEBUG       -L / win32dev / misc / wget / out64 / lib -L ​​/ win32dev / misc / wget / out64 / lib       /win32dev/misc/wget/out64/lib/libiconv.a       -L / win32dev / misc / wget / out64 / lib -lmetalink       -L / win32dev / misc / wget / out64 / lib -lssl -lcrypto -lz -lws2_32 -lole32       -lidn ftp-opie.o mswindows.o openssl.o http-ntlm.o ../ lib / libgnu.a

     

版权所有(C)2015 Free Software Foundation,Inc。许可证GPLv3 +:GNU   GPL版本3或更高版本http://www.gnu.org/licenses/gpl.html。这是   免费软件:您可以自由更改并重新分发它。没有   保证,在法律允许的范围内。

     

最初由Hrvoje Niksic撰写。请发送   错误报告和问题。

这是生成的命令显示高频请求的日志文件:

  

- 2016-04-20 22:01:17-- https://www.gnu.org/software/wget/manual解析www.gnu.org(www.gnu.org)... 208.118.235.148连接到   www.gnu.org(www.gnu.org)| 208.118.235.148 |:443 ...已连接。 HTTP   请求已发送,等待回复... 301永久移动位置:   https://www.gnu.org/software/wget/manual/ [关注]   --2016-04-20 22:01:19-- https://www.gnu.org/software/wget/manual/重用与www.gnu.org:443的现有联系。 HTTP请求已发送,   等待响应... 200 OK长度:未指定[text / html]保存到:   ' www.gnu.org/software/wget/manual.html'

 0K .........                                              1.01M=0.009s
     

2016-04-20 22:01:20(1.01 MB / s) -   ' www.gnu.org/software/wget/manual.html'保存[9313]

     

加载robots.txt;请忽略错误。   --2016-04-20 22:01:20-- https://www.gnu.org/robots.txt重用现有的www.gnu.org:443连接。 HTTP请求已发送,等待   响应... 200 OK长度:190 [text / plain]保存到:   ' www.gnu.org/robots.txt'

 0K                                                       100%  873K=0s
     

2016-04-20 22:01:21(873 KB / s) - ' www.gnu.org/robots.txt'保存   [一百九十分之一百九十〇]

     

- 2016-04-20 22:01:21-- https://www.gnu.org/combo.css重用与www.gnu.org:443的现有联系。 HTTP请求已发送,等待   响应... 200 OK长度:6746(6.6K)[text / css]保存到:   ' www.gnu.org/combo.css'

 0K ......                                                100% 3.09M=0.002s
     

2016-04-20 22:01:21(3.09 MB / s) - ' www.gnu.org/combo.css'保存   [6746分之6746]

     

- 2016-04-20 22:01:21-- https://www.gnu.org/mini.css重用与www.gnu.org:443的现有联系。 HTTP请求已发送,等待响应...   200 OK长度:1821(1.8K)[text / css]保存到:   ' www.gnu.org/mini.css'

 0K .                                                     100% 13.0M=0s
     

2016-04-20 22:01:21(13.0 MB / s) - ' www.gnu.org/mini.css'保存   [1821分之1821]

     

- 2016-04-20 22:01:21-- https://www.gnu.org/layout.min.css重用与www.gnu.org:443的现有联系。 HTTP请求已发送,等待   响应... 200 OK长度:14522(14K)[text / css]保存到:   ' www.gnu.org/layout.m

===================

更新:

我尝试使用较旧的1.1.16版wget - 同样的行为。

我用调试模式运行它,它声称使用15s等待。但是当我查看日志文件时,它似乎并没有延迟请求。

enter image description here

fragment of the logfile from the --debug operation. I think it shows no 5s wait-delay between requests

此外,我的一个朋友在他的osx盒子上运行了相同的命令,它在请求之间明显暂停了5秒。

0 个答案:

没有答案