wget
在访问以下网站时挂起。但是当我使用浏览器访问它时,它将被重定向到https://nyulangone.org。有谁知道为什么在这种情况下wget无法重定向?感谢。
$ wget http://nyumc.org
--2018-02-20 20:27:05-- http://nyumc.org/
Resolving nyumc.org (nyumc.org)... 216.165.125.106
Connecting to nyumc.org (nyumc.org)|216.165.125.106|:80...
答案 0 :(得分:0)
当我在你提到的网站上使用wget时,这就是我得到的:
--2018-02-21 21:16:38-- http://www.nyumc.org/
Resolving www.nyumc.org (www.nyumc.org)... 216.165.125.112
Connecting to www.nyumc.org (www.nyumc.org)|216.165.125.112|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 179 [text/html]
Saving to: ‘index.html’
index.html 100%[==================================>] 179 --.-KB/s in 0s
2018-02-21 21:16:38 (8.16 MB/s) - ‘index.html’ saved [179/179]
在带有纽约朗格医疗中心徽标的index.html
文件中,它说:" 以下网址因安全问题而被拒绝。如果您认为自己错误地收到了此消息,请在212-263-6868与我们的服务台联系。 ..."因此,它可能无法重定向,因为网站可以检测到您是机器人而不是浏览器。您可以尝试更改用户代理字符串和其他HTTP标头以避免检测,但我不确定为什么您不能在https://nyulangone.org上转换wget。从archive.org上的信息来看,nyumc.org至少在过去的5年里一直在重定向到其他网站。它被重定向到http://www.med.nyu.edu直到2016年,此时它开始重定向到https://www.nyulangone.org。
我希望有所帮助。