我希望从我的html页面获取带有模式的所有名称。
见下文:
<li >
<span class="industry-rank">1</span>
<span class="line">
<span class="info">
<a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
<span class="img"
style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
</span>
</a>
<span class="name">
<a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Nike</a>
</span>
</span>
</span>
</li>
<li >
<span class="industry-rank">1</span>
<span class="line">
<span class="info">
<a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
<span class="img"
style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
</span>
</a>
<span class="name">
<a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Roger</a>
</span>
</span>
</span>
</li>
HTML页面以重复的方式包含网址。我想让所有的名字都像&#34; nike&#34;或者&#34; roger&#34;。
我该怎么做才能得到它?
我尝试使用curl来调用url,但是在我这样做之后该怎么办?
答案 0 :(得分:0)
使用cURL是正确的。通过URL创建GET请求后,在Github上找到一个库以帮助进行HTML解析。
以下是指向将执行以上所有操作的库的链接:https://github.com/mahadazad/page-scraper