我正在网站上进行数据报废,我试图从类别页面获取所有产品网址。我不确定为什么simple_html_dom不会从类别页面返回产品网址。这是我的PHP代码。
// Require simplehtmldom
require_once 'includes/simplehtmldom_1_5/simple_html_dom.php';
// Category page URL
$srcurl = 'http://www.lastcall.com/Hers/Womens-Apparel/Dresses/Cocktail/cat11210008_cat5900001_cat6150001/c.cat#userConstrainedResults=true&refinements=&page=1&pageSize=120&sort=&definitionPath=/nm/commerce/pagedef_rwd/template/EndecaDriven&locationInput=&radiusInput=100&onlineOnly=&allStoresInput=false&rwd=true&catalogId=cat11210008';
$html = file_get_html($srcurl); // get DOM from URL or file
file_get_html没有显示来自" lastcall"的任何HTML元素。 (适用于其他网站的网址)。所以,我使用像这样的PHP CURL,
// Line 1 to 4 same
// $html = file_get_html($srcurl); // get DOM from URL or file
$curl = curl_init();
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_URL, $srcurl);
curl_setopt($curl, CURLOPT_REFERER, $srcurl);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$str = curl_exec($curl);
curl_close($curl);
$html = new simple_html_dom(); // Create a DOM object
$html->load($str); // Load HTML from a string
echo $html; // Disply data on test page
使用CURL后,我只从上面的URL获取页眉和页脚数据,但页面没有显示产品块,从中我可以实际提取所有产品链接。我只需要帮助显示产品块,稍后我可以实现匹配案例来获取产品链接。提前谢谢。
此致 ANKUR