我已根据this example创建了一个网络抓取工具。
这个工作正常,但如果我更换
processPage("http://www.mit.edu");
Document doc = Jsoup.connect("http://www.mit.edu/").get();
与
processPage("http://www.stackoverflow.com");
Document doc = Jsoup.connect("http://www.stackoverflow.com/").get();
或相同的文本,但对于其他网站,则只返回文本“conn built”。
为什么这不适用于其他网站?
答案 0 :(得分:0)
我没有尝试代码,但我的猜测是访问" http://www.stackoverflow.com"它返回HTTP Response code-301 or 302
。这意味着它会重定向到不同的页面。我猜你正在使用的库不能很好地处理301/302响应代码。
请尝试使用此网址https://stackoverflow.com/questions。如果我的假设是正确的,它应该有效。