HTML
<td> SCH4UE-01 : Chemistry <br> Block: 1 - rm. 315 </br></td>
我不想要br
标记,但我做想要所有其他文字(SCH4UE-01 : Chemistry
)
我尝试过的CSS查询
td:eq(0)
输出:SCH4UE-01 : Chemistry Block: 1 - rm. 315
然而
br
输出:Block: 1 - rm. 315
答案 0 :(得分:1)
<br>
标记是空标记,表示它没有结束标记。
请参阅:http://www.w3schools.com/tags/tag_br.asp
用</br>
替换<br>
代码(如果您打印jsoup文档,jsoup会自动修复此类错误),您的<td>
代码会有四个子节点:
#text
br
#text
br
因此,文本SCH4UE-01 : Chemistry
是第一个子节点(element.childNode(0)
)。
<强>代码强>
String htmlString = "<html><body><table><td> SCH4UE-01 : Chemistry <br> Block: 1 - rm. 315 <br></td></table></body></html>";
Document doc = Jsoup.parse(htmlString);
Elements tdElements = doc.select("td");
for (Element tdElement : tdElements){
System.out.println(tdElement.childNode(0));
}
<强>输出强>
SCH4UE-01 : Chemistry