Question

我希望从我的html页面获取带有模式的所有名称。

见下文：

  <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Nike</a>
        </span>
      </span>
    </span>
  </li>
 <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Roger</a>
        </span>
      </span>
    </span>
  </li>

HTML页面以重复的方式包含网址。我想让所有的名字都像＆＃34; nike＆＃34;或者＆＃34; roger＆＃34;。

我该怎么做才能得到它？

我尝试使用curl来调用url，但是在我这样做之后该怎么办？

Answer 1

使用cURL是正确的。通过URL创建GET请求后，在Github上找到一个库以帮助进行HTML解析。

以下是指向将执行以上所有操作的库的链接：https://github.com/mahadazad/page-scraper

从模式html获取特定节点的价值

1 个答案: