Jsoup解析嵌套的html

时间:2014-04-13 08:16:01

标签: java parsing jsoup

我有一个用Jsoup解析的HTML,我在HTML奇怪的结构后失去了轨道。我可以这样总结一下HTML(每一行都是上面的一个级别):

<html>
  <body class="page3078">
    <div id="mainCapsule">
      <div id="contentCapsule" class="capsule">
        <div id="content">
          <div id="subCapsule" class="clearFix" xmlns="">
            <div id="contentLeft">
              <iframe width="635" height="1000" frameborder="0" src="apps/Results.aspx">
                #document
                <html xmlns="http://www.w3.org/1999/xhtml">
                  <body style="background:none;">
                    <form id="form1" action="Results.aspx" method="post" name="form1">
                      <div class="pressContent">
                        <div class="tableCapsule details">
                          <table width="100%" border="0" cellspacing="0" cellpadding="0">
                            <tbody>
                              <tr class="even">

基本上我想用“even”类来获取标签内的文本。我试着像这样直接调用类:

doc.getElementsByClass("even")

它不起作用。我试过父母&gt;与选择器方法的子关系。它也没用。我在第二个html标签内尝试了这个:

doc.select("body.page3078 > html > body > #form1 > th");

也没用。我哪里错了?

1 个答案:

答案 0 :(得分:0)

一条评论总结了解决方案的开始:

  

如前所述,您需要在单独的jsoup解析器中从iframe获取页面。这个页面根本不奇怪 - 它只是在iframe中显示一个单独的页面。 - Boris the Spider