Question

我正在开发一个使用Jsoup api解析html的项目。在另一个模块中，我收到了Document类的htmlDom对象，并尝试获取所有头元素。我想提取所有标题类型<h1, h2, ..., h6>

的元素

我试过浏览Jsoup api，然后是Elements类的所有方法，但是找不到一个方法来为我提取标题元素。

如果有任何方法可以简化我当前使用Jsoup从Elements集合中提取标题元素的方法，请指导我。

Elements elementsObj = htmlDom.getAllElements();
for (Element htmlElement : elementsObj) {
    // Match and extract all the headers from other elements
    if (htmlElement.nodeName().matches("h[1-6]")) {
        headerNodeList.add(htmlElement);
    }

Answer 1

你可以做些什么来避免循环使用Jsoup的select方法。它允许您直接从文档中选择元素，并避免任何迭代。这是另一个Stack Overflow帖子，其中包含相同的问题Jsoup: get all heading tags

如何使用Jsoup获取已解析HTML的所有标题元素？

1 个答案: