为什么`wget`无法获得某个网站的重定向?

时间:2018-02-21 02:30:01

标签: wget url-redirection

wget在访问以下网站时挂起。但是当我使用浏览器访问它时,它将被重定向到https://nyulangone.org。有谁知道为什么在这种情况下wget无法重定向?感谢。

$ wget http://nyumc.org
--2018-02-20 20:27:05--  http://nyumc.org/
Resolving nyumc.org (nyumc.org)... 216.165.125.106
Connecting to nyumc.org (nyumc.org)|216.165.125.106|:80...

1 个答案:

答案 0 :(得分:0)

当我在你提到的网站上使用wget时,这就是我得到的:

--2018-02-21 21:16:38--  http://www.nyumc.org/
Resolving www.nyumc.org (www.nyumc.org)... 216.165.125.112
Connecting to www.nyumc.org (www.nyumc.org)|216.165.125.112|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 179 [text/html]
Saving to: ‘index.html’

index.html               100%[==================================>]     179  --.-KB/s    in 0s      

2018-02-21 21:16:38 (8.16 MB/s) - ‘index.html’ saved [179/179]

在带有纽约朗格医疗中心徽标的index.html文件中,它说:" 以下网址因安全问题而被拒绝。如果您认为自己错误地收到了此消息,请在212-263-6868与我们的服务台联系。 ..."因此,它可能无法重定向,因为网站可以检测到您是机器人而不是浏览器。您可以尝试更改用户代理字符串和其他HTTP标头以避免检测,但我不确定为什么您不能在https://nyulangone.org上转换wget。从archive.org上的信息来看,nyumc.org至少在过去的5年里一直在重定向到其他网站。它被重定向到http://www.med.nyu.edu直到2016年,此时它开始重定向到https://www.nyulangone.org

我希望有所帮助。