即使机器人已关闭,Wget也会重定向

时间:2018-12-15 17:29:17

标签: web-scraping wget

我正在使用wget下载有关极右极端主义研究项目的数据。我有一个URL列表,但未下载URL。 (它们确实可以在浏览器中工作。)

所有网址的结构如下:

https://www.forum.org/forum/printthread.php?t=1182735&pp=100

但是wget重定向到首页。但是,这些网址可以与wget一起正常工作:

https://www.forum.org/forum/printthread.php?t=1182735

问题似乎出在网址的最后一位&pp=100

到目前为止我尝试过的事情:

  1. 转义&字符(\&)或将其替换为%%20
  2. 关闭机器人。

这是我使用的wget代码:

cat urls.txt | parallel -j 4 wget -e robots=off --no-check-certificate --auth-no-challenge --load-cookies cookies.txt --keep-session-cookies --random-wait --max-redirect=0 -P forumfiles -a wget_log_15dec2018

编辑:有关其价值,请通过HTTrack下载网址。这让我对这个wget问题更加好奇。

Edit2:更改了原始网址的匿名性。

Edit3:由于以下答案,以下代码有效:

cat urls.txt | parallel -j 4 wget --no-check-certificate --auth-no-challenge --load-cookies cookies.txt -nc --keep-session-cookies  -U "Mozilla/5.0" --random-wait --max-redirect=0 -P forumfiles -a wget_log_17dec2018

1 个答案:

答案 0 :(得分:1)

有趣的是,您提供的网站示例基于user-agent字符串返回结果。使用默认的用户代理,服务器将返回301响应,并要求wget仅下载第一页。

您只需更改用户代理字符串即可使其工作。例如。: --user-agent=mozilla