我使用jsoup 1.8.3来解析html页面并提取数据。这是我试图解析的html页面CONTENT.但它没有显示内容。我怎样才能做到这一点?
这是我试过的代码,
Document doc = Jsoup.connect("http://www.numberfire.com/nfl/teams/power-rankings/")
.userAgent("Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.110 Safari/537.36")
.timeout(0).followRedirects(true).execute().parse();;
Elements table = doc.select("table");
Elements rows = table.select("tr");
System.out.print("============ "+table.html().toString());
这是我得到的输出,
============ <thead>
<tr valign="middle">
<th rowspan="2" colspan="3" class="tal">Team</th>
<th rowspan="2" class="sep">Rec</th>
<th rowspan="2" class="col-proj_w"><a href="#" class="sorter" rel="proj_w">Proj</a></th>
<th rowspan="2" class="col-playoffs"><a href="#" class="sorter" rel="playoffs">Playoff</a></th>
<th rowspan="2" class="col-division"><a href="#" class="sorter" rel="division">Div</a></th>
<th rowspan="2" class="col-superbowl"><a href="#" class="sorter" rel="superbowl">SB</a></th>
<th class="sep" colspan="3">Offense</th>
<th class="sep" colspan="3">Defense</th>
<th rowspan="2" class="sep col-nerd"><a href="#" class="sorter" rel="nerd">nERD</a></th>
</tr>
<tr valign="middle">
<th class="sep col-offense"><a href="#" class="sorter" rel="offense">Ovr</a></th>
<th class="col-o_rushing"><a href="#" class="sorter" rel="o_rushing">Rush</a></th>
<th class="col-o_passing"><a href="#" class="sorter" rel="o_passing">Pass</a></th>
<th class="sep col-defense"><a href="#" class="sorter" rel="defense">Ovr</a></th>
<th class="col-d_rushing"><a href="#" class="sorter" rel="d_rushing">Rush</a></th>
<th class="col-d_passing"><a href="#" class="sorter" rel="d_passing">Pass</a></th>
</tr>
</thead>
<tbody id="team-data"></tbody>
在这里,我没有得到tbody的内容。我也试过这种方式。
doc = Jsoup.connect("http://www.numberfire.com/nfl/teams/power-rankings/").get();
答案 0 :(得分:0)
tbody是空的,因为网页很可能是动态填充的。
一个简单的选择是使用大多数浏览器的save_as功能在本地下载原始HTML并将JSOUP下载到本地文件。