使用cURL(php)从网站收集特定数据

时间:2014-04-19 15:44:01

标签: php html parsing curl

我正在一个网站上工作,其中一部分允许用户查看产品。我希望实现一个简单的目标,即列出产品并说“#34;还没有评论!"

由于产品一直在制作,我想自动收集名称,价格,也许是图片......

我目前正在尝试从HERE访问此信息 这是我目前的代码:

<?php

$ch = curl_init("http://www.nrs.com/category/2740/whitewater-kayaking/womens-life-    jackets");
$fp = fopen("collected.txt", "w");

curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);

curl_exec($ch);
curl_close($ch);
fclose($fp);
?>

它收集文本文件中的数据。 在尝试解析html时,有几个问题。      - 首先,我需要确保所有分页都已填满,或者循环浏览页面。      - 我需要收集产品的名称等......所以,删除某些代码 直到我只剩下我想要的信息      - 让它写出像| * |这样的分隔符因此,当我的网站显示名称时,它知道何时写出下一个产品。      - 让网站所有者难以阻止这个...我希望他保留div名称等等。      - 一旦找不到,就停止搜索

以下是我认为在其网站上重要的代码:

<div class="categoryItem">
    <div class="shortDesc">
    <p>The beautifully designed Astral Linda women's life jacket is affordable, lightweight and all-day comfortable for any type of boating. The thin back works comfortably with any kayak or raft seat.</p>
    </div>
    <a href="/product/40086.02/astral-womens-linda-pfd" data-prodImg="40086.02"><img   class="productImageThumb"   src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Azul_Front_010313_150x150.jpg" width="150" height="150" ALT="Astral Women&#39;s Linda PFD" /></a>
        <div class="productColorOptions">
        <a href="javascript:void(0);" title="Azul"><img src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Azul_Front_010313_swatch_15x15.jpg" alt="" border="0"></a>
        <a href="javascript:void(0);" title="Gray"><img  src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Gray_Front_010313_swatch_ 15x15.jpg" alt="" border="0"></a>
   </div>
   <div class="clearIt"></div>
   <h2><a href="/product/40086.02/astral-womens-linda-pfd">Astral Women's Linda PFD</a> </h2>
   <p class="reviewLinkBlock"></p>
   <h4>$94.95</h4>
   <div class="compareButton"><a href="javascript:void(0);" data-compare="40086.02"   rel="nofollow" class="compareBtn compareAdd">Compare</a><span class="cancelCompare"><a    href="javascript:void(0);" data-compare="40086.02" rel="nofollow"    class="compareRemove">x</a></span></div>
</div><!-- end class="categoryItem" -->

有多个categoryItem div,仅适用于产品。用户甚至很好地评论了它。所以现在我需要不断剥离代码层,直到我能够达到名称......任何建议/解决方案?

1 个答案:

答案 0 :(得分:0)

我建议使用正则表达式来匹配包含所需信息的元素,使用preg_match_all。

例如:

preg_match_all('#\<p>(.+?)\<\/p>#s', $html, $matches);

显然,您可能希望修改模式以满足您的需求