Jsoup从结果中删除子文本

时间:2018-02-07 21:10:14

标签: jsoup element

Elements runningTime = movdet.select("table.infobox.vevent tr th:contains(Running time) + td");
Elements sing = movdet.select("h1#firstHeading.firstHeading");

 String running = runningTime.text();
 String heading = sing.text();

        System.out.println(heading + " " + running );

<tr>
<th scope="row" style="white-space:nowrap;padding-right:0.65em;">
<div style="padding:0.1em 0;line-height:1.2em;white-space:normal;">Running time</div>
</th>
<td style="line-height:1.3em;">97 minutes<sup id="cite_ref-1" class="reference"><a href="#cite_note-1">[1]</a></sup></td>
</tr>

我试图获得没有'sup'元素的td文本而没有任何成功。 我得到的是:

运行: 运行:

  1. L.A。机密(电影)柯蒂斯汉森138分钟
  2. L.A。故事米克杰克逊98分钟[1]
  3. L.I.E。 Michael Cuesta 97分钟[1]
  4. L.O.R.D:蹂躏王朝的传说郭敬明117分钟[2]
  5. L'arma Pasquale Squitieri
  6. L'ora legale Ficarra e Picone 95分钟
  7. La Bamba(电影)Luis Valdez 108分钟
  8. Rock Barom Nobuhiro Yamashita的La La La 103分钟
  9. 所以我想摆脱“[1]”。我尝试过ownText()方法,但它不起作用。 谁知道如何处理这个?

1 个答案:

答案 0 :(得分:0)

Elements singm = doc.select("div#content.mw-body");
            singm.select("sup").remove();

我不得不删除所有上标。