我有一个用Jsoup解析的HTML,我在HTML奇怪的结构后失去了轨道。我可以这样总结一下HTML(每一行都是上面的一个级别):
<html>
<body class="page3078">
<div id="mainCapsule">
<div id="contentCapsule" class="capsule">
<div id="content">
<div id="subCapsule" class="clearFix" xmlns="">
<div id="contentLeft">
<iframe width="635" height="1000" frameborder="0" src="apps/Results.aspx">
#document
<html xmlns="http://www.w3.org/1999/xhtml">
<body style="background:none;">
<form id="form1" action="Results.aspx" method="post" name="form1">
<div class="pressContent">
<div class="tableCapsule details">
<table width="100%" border="0" cellspacing="0" cellpadding="0">
<tbody>
<tr class="even">
基本上我想用“even”类来获取标签内的文本。我试着像这样直接调用类:
doc.getElementsByClass("even")
它不起作用。我试过父母&gt;与选择器方法的子关系。它也没用。我在第二个html标签内尝试了这个:
doc.select("body.page3078 > html > body > #form1 > th");
也没用。我哪里错了?
答案 0 :(得分:0)
一条评论总结了解决方案的开始:
如前所述,您需要在单独的jsoup解析器中从iframe获取页面。这个页面根本不奇怪 - 它只是在iframe中显示一个单独的页面。 - Boris the Spider