Jsoup返回与Web浏览器不同的html

时间:2012-07-07 16:26:01

标签: jsoup

我有url = "http://mp3.zing.vn/tim-kiem/playlist.html?q=Bảo Thy

  

Document doc = Jsoup.connect(url).get()

当我使用Jsoup来获取HTML时。它不能正常工作。它返回与我使用浏览器时不同的html。我该如何解决这个问题。

但是,当我使用不带参数的网址(http://mp3.zing.vn)时,它正常工作。

3 个答案:

答案 0 :(得分:2)

我已经解决了这个问题。

http://mp3.zing.vn/tim-kiem/playlist.html?q=Bảo thy

参数是越南语单词,在这种情况下,此站点使用URL编码。所以,我必须将所有参数编码为UTF-8编码。

keyword = URLEncoder.encode(keyword,"UTF-8");

和编码后的网址

http://mp3.zing.vn/tim-kiem/playlist.html?q=B%E1%BA%A3o%20thy

Jsoup工作正常。

谢谢大家。关闭主题。

答案 1 :(得分:1)

您很可能需要提供Cookie,会话或某种注册方法。

请检查一下:

Advice with crawling web site content

答案 2 :(得分:1)

我有同样的问题,我通过

修复了它
Document doc = Jsoup.connect("YourURL").userAgent("Mozilla").get();