我正在一个网站上工作,其中一部分允许用户查看产品。我希望实现一个简单的目标,即列出产品并说“#34;还没有评论!"
由于产品一直在制作,我想自动收集名称,价格,也许是图片......
我目前正在尝试从HERE访问此信息 这是我目前的代码:
<?php
$ch = curl_init("http://www.nrs.com/category/2740/whitewater-kayaking/womens-life- jackets");
$fp = fopen("collected.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_exec($ch);
curl_close($ch);
fclose($fp);
?>
它收集文本文件中的数据。 在尝试解析html时,有几个问题。 - 首先,我需要确保所有分页都已填满,或者循环浏览页面。 - 我需要收集产品的名称等......所以,删除某些代码 直到我只剩下我想要的信息 - 让它写出像| * |这样的分隔符因此,当我的网站显示名称时,它知道何时写出下一个产品。 - 让网站所有者难以阻止这个...我希望他保留div名称等等。 - 一旦找不到,就停止搜索
以下是我认为在其网站上重要的代码:
<div class="categoryItem">
<div class="shortDesc">
<p>The beautifully designed Astral Linda women's life jacket is affordable, lightweight and all-day comfortable for any type of boating. The thin back works comfortably with any kayak or raft seat.</p>
</div>
<a href="/product/40086.02/astral-womens-linda-pfd" data-prodImg="40086.02"><img class="productImageThumb" src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Azul_Front_010313_150x150.jpg" width="150" height="150" ALT="Astral Women's Linda PFD" /></a>
<div class="productColorOptions">
<a href="javascript:void(0);" title="Azul"><img src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Azul_Front_010313_swatch_15x15.jpg" alt="" border="0"></a>
<a href="javascript:void(0);" title="Gray"><img src="http://nrsweb5.richfx.com.edgesuite.net/image/media/40086_02_Gray_Front_010313_swatch_ 15x15.jpg" alt="" border="0"></a>
</div>
<div class="clearIt"></div>
<h2><a href="/product/40086.02/astral-womens-linda-pfd">Astral Women's Linda PFD</a> </h2>
<p class="reviewLinkBlock"></p>
<h4>$94.95</h4>
<div class="compareButton"><a href="javascript:void(0);" data-compare="40086.02" rel="nofollow" class="compareBtn compareAdd">Compare</a><span class="cancelCompare"><a href="javascript:void(0);" data-compare="40086.02" rel="nofollow" class="compareRemove">x</a></span></div>
</div><!-- end class="categoryItem" -->
有多个categoryItem div,仅适用于产品。用户甚至很好地评论了它。所以现在我需要不断剥离代码层,直到我能够达到名称......任何建议/解决方案?
答案 0 :(得分:0)
我建议使用正则表达式来匹配包含所需信息的元素,使用preg_match_all。
例如:
preg_match_all('#\<p>(.+?)\<\/p>#s', $html, $matches);
显然,您可能希望修改模式以满足您的需求