Jsoup返回标记与空体

时间:2016-06-10 21:29:54

标签: html web-scraping jsoup

我正在尝试从 - http://www.giantbomb.com/bioshock-infinite/3030-32317/中删除数据。我可以获得所需的标签,但标签内的内容丢失了。

 Element element =  document.body().getElementById("site-main").getElementById("mantle_skin")
                                   .getElementById("wrapper").select("div.js-toc-generate").select("form.wikiGroup").first().getElementById("site")
                                   .getElementById("default-content").select("aside.secondary-content.span4 ").first();
 Log.e("hi",element.toString());

代码正常工作,直到第二次调用“select”。但是,当我添加最后一个“选择”功能时,我得到空标签体。

输出

<aside class="secondary-content span4 "> 
</aside>

正如你所看到的那样找到了元素但是没有正文,即使它在查看html代码时确实有一个。对此有什么解决方案吗?

1 个答案:

答案 0 :(得分:0)

这在Java上运行良好但在Android中运行不正常。添加 useragent()可解决问题

Docuemnt doc = Jsoup.connect(params[0]).userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36").get();