是否可以读取html页面内容并使用特定类获取<div>?

时间:2019-07-08 16:52:00

标签: javascript node.js html-parsing

我正在使用Nodejs应用程序读取大型网页。该网页的内容使用REST API调用读取。一旦获得内容,我只会对特定的div及其下的所有内容感兴趣。 我想知道是否有任何Node.js库和内置的javascript功能可用于使此过程变得无缝。

DOM树如下所示,我想阅读href向我显示。最外层/父级DIV与class =“ three-equal”一样。

<div class="three-equal" data-layout="three-equal">
  <div class="cell normal" data-type="normal">
    <div class="innerCell">
      <p>
        <span </span>
      </p>
      <div class="panel" ">
        <div </div>
          <div class="panelContent " style="background-color: #ffffff; ">

          </div>
        </div>
        <p>
          <span </span>
        </p>
        <div class="panel " </div>
          <div class="panelContent " style="background-color: #ffffff; ">
            <p>
              <em>
                                                                                                        <a href="/display/reference/ ">Display me</a>
                                                                                                    </em>
            </p>
          </div>
        </div>

      </div>
    </div>
  </div>
</div>
</div>
</div>
</div>

1 个答案:

答案 0 :(得分:0)

我将使用此DOM遍历/操作库。 https://github.com/defunctzombie/dom

在此处了解其用法:https://github.com/defunctzombie/dom/wiki