网站更改时网页爬虫会中断

时间:2014-06-10 22:06:01

标签: java jsoup web-crawler

我已根据this example创建了一个网络抓取工具。

这个工作正常,但如果我更换

processPage("http://www.mit.edu");
Document doc = Jsoup.connect("http://www.mit.edu/").get();

processPage("http://www.stackoverflow.com");
Document doc = Jsoup.connect("http://www.stackoverflow.com/").get();

或相同的文本,但对于其他网站,则只返回文本“conn built”。

为什么这不适用于其他网站?

1 个答案:

答案 0 :(得分:0)

我没有尝试代码,但我的猜测是访问" http://www.stackoverflow.com"它返回HTTP Response code-301 or 302。这意味着它会重定向到不同的页面。我猜你正在使用的库不能很好地处理301/302响应代码。

请尝试使用此网址https://stackoverflow.com/questions。如果我的假设是正确的,它应该有效。