我正在查看一个通用的HTML表,其中包含我需要提取的一些值。
该表的示例如下:
<table width="100%" class="list">
<tbody>
<tr>
<td><font style="font-family:Verdana; color:black; font-size:8pt; "><label>Project Number</label></font></td>
<td><font style="font-family:Verdana; color:black; font-size:8pt; ">123456</font> </td>
</tr>
<tr height="22">
<td><font style="font-family:Verdana; color:black; font-size:8pt; "><label>Report Number</label></font></td>
<td><font style="font-family:Verdana; color:black; font-size:8pt; ">REP445566</font></td>
</tr>
</table>
我想要做的是从第二个<td>
标记中提取值。我不想为表格做一个元素,然后另一个用于<tr>
标记,另一个用于<td>
,另一个用于<font>
。我很好奇是否有办法选择类似&#34; tr&gt;的东西。 td&gt;字体&#34;所以我可以避免创建多个元素来深入到字体的值。
到目前为止我所拥有的是:
Elements listTables = doc.getElementsByClass("list");
// There is a table above the one I want to use
Element mainTable = listTables.get(1);
Elements trs = mainTable.select("tr");
for (Element tr : trs) {
Elements tds = tr.select("td");
Element label = tds.get(0);
if (tds.size() > 1) {
Element value = tds.get(1);
// This gets me the td, now I need the value of the font
}
}
答案 0 :(得分:2)
当然,Jsoup非常强大!试试这个
String tdPath = "table > tbody > tr > td:nth-child(2)";
Elements secondTd = doc.select(tdPath);
答案 1 :(得分:2)
您需要使用css选择器查询:
Elements e = d.select("table.list > tbody > tr > td + td");
for(int i=0;i<e.size();i++)
System.out.println(e.get(i).text());
输出:
123456
REP445566