如何使用Jsoup获取已解析HTML的所有标题元素?

时间:2014-08-18 15:47:43

标签: java html regex jsoup

我正在开发一个使用Jsoup api解析html的项目。在另一个模块中,我收到了Document类的htmlDom对象,并尝试获取所有头元素。我想提取所有标题类型<h1, h2, ..., h6>

的元素

我试过浏览Jsoup api,然后是Elements类的所有方法,但是找不到一个方法来为我提取标题元素。

如果有任何方法可以简化我当前使用Jsoup从Elements集合中提取标题元素的方法,请指导我。

Elements elementsObj = htmlDom.getAllElements();
for (Element htmlElement : elementsObj) {
    // Match and extract all the headers from other elements
    if (htmlElement.nodeName().matches("h[1-6]")) {
        headerNodeList.add(htmlElement);
    }

1 个答案:

答案 0 :(得分:0)

你可以做些什么来避免循环使用Jsoup的select方法。它允许您直接从文档中选择元素,并避免任何迭代。这是另一个Stack Overflow帖子,其中包含相同的问题Jsoup: get all heading tags