我们使用的是Nutch2.3版本,对于某些网址,我们在获取时会收到以下提到的异常。
“获取失败,协议状态为:TEMP_MOVED”
尝试也增加了重定向URL的数量,但是仍然出现相同的错误。
有什么方法可以获取和解析此页面?
答案 0 :(得分:0)
问题在于Web服务器正在使用重定向而不是内容进行响应。
增加http.redirect.max
中的nutch-site.xml
设置(默认为https://github.com/apache/nutch/blob/master/conf/nutch-default.xml#L341,0
)。