我正在开发一个使用Jsoup api解析html的项目。在另一个模块中,我收到了Document类的htmlDom对象,并尝试获取所有头元素。我想提取所有标题类型<h1, h2, ..., h6>
我试过浏览Jsoup api,然后是Elements类的所有方法,但是找不到一个方法来为我提取标题元素。
如果有任何方法可以简化我当前使用Jsoup从Elements集合中提取标题元素的方法,请指导我。
Elements elementsObj = htmlDom.getAllElements();
for (Element htmlElement : elementsObj) {
// Match and extract all the headers from other elements
if (htmlElement.nodeName().matches("h[1-6]")) {
headerNodeList.add(htmlElement);
}
答案 0 :(得分:0)
你可以做些什么来避免循环使用Jsoup的select
方法。它允许您直接从文档中选择元素,并避免任何迭代。这是另一个Stack Overflow帖子,其中包含相同的问题Jsoup: get all heading tags