我对db_redir_temp有一些疑问

时间:2020-10-26 11:45:36

标签: nutch nutch2

我已经注入了一些要爬网的URL,这是一轮,我发现一些URL为db_redir_temp。 {“ url”:“ http://www.universityhealth.org”,“ pst”:“ temp_moved(13),lastModified = 0:https://www.universityhealth.org/"} {“ url”:“ http://silvercappartners.com”,“ pst”:“ temp_moved(13),lastModified = 0:http://silvercappartners.com/index.html"}

我是否可以知道http://www.universityhealth.org指向的URL为何显示db_redir_temp。 该网址指向http://silvercappartners.com,指向该网址http://silvercappartners.com/index.html 我应该认为pst列会提供重定向的网址页面。

1 个答案:

答案 0 :(得分:1)

两个网址

http://www.universityhealth.org
https://www.universityhealth.org/

在一个重要点上,协议(或方案)-httphttps有所不同。这些并不总是等效的,例如。 Web服务器可能不支持https。另一点(尾随/)无关紧要,空路径和服务器根路径的HTTP请求均为GET / HTTP/1.1(可能使用不同的协议版本)。

但是真正的原因仅仅是服务器以HTTP/1.1 302 Found响应,这是重定向,请参见HTTP 302

“ pst”或“协议状态”元数据字段可能包含一条消息。对于重定向,它包含重定向目标。