从模式html获取特定节点的价值

时间:2015-02-09 23:15:32

标签: html url curl

我希望从我的html页面获取带有模式的所有名称。

见下文:

  <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Nike</a>
        </span>
      </span>
    </span>
  </li>
 <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Roger</a>
        </span>
      </span>
    </span>
  </li>

HTML页面以重复的方式包含网址。我想让所有的名字都像&#34; nike&#34;或者&#34; roger&#34;。

我该怎么做才能得到它?

我尝试使用curl来调用url,但是在我这样做之后该怎么办?

1 个答案:

答案 0 :(得分:0)

使用cURL是正确的。通过URL创建GET请求后,在Github上找到一个库以帮助进行HTML解析。

以下是指向将执行以上所有操作的库的链接:https://github.com/mahadazad/page-scraper