curl,xpath查询问题

时间:2011-01-14 00:10:34

标签: php curl screen-scraping

我的xpath查询需要一些帮助。除了特定网站的这个小部分之外,我可以使用这个代码来处理我需要抓取的每个网站...我只是得到一个空白页面...有没有人知道如何更好地做到这一点?< / p>

//
$target_url = "http://www.teambuy.ca/vancouver/";
$userAgent = 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)';

// make the cURL request to $target_url
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT,$userAgent);
curl_setopt($ch, CURLOPT_URL,$target_url);
curl_setopt($ch, CURLOPT_FAILONERROR, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_AUTOREFERER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
$html= curl_exec($ch);
if (!$html) {
    echo "<br />cURL error number:" .curl_errno($ch);
    echo "<br />cURL error:" . curl_error($ch);
    exit;
}

// parse the html into a DOMDocument
$dom = new DOMDocument();
@$dom->loadHTML($html);

// grab all the on the page
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body/div[@id='pagewrap']/div[@id='content']/div[@id='bottomSection']/div[@id='bottomRight']/div[@id='sideDeal']/div[2]/div/a/center/span");

foreach ($hrefs as $e) {
    $e->nodeValue;
}
$insert = $e->nodeValue;
echo "$insert";

- 编辑 -

没有运气...... 致命错误:在第4行的非对象上调用成员函数loadHTMLfile()      //

$xpath_query = $dom->loadHTMLfile("http://www.teambuy.ca/vancouver/");

$hrefs = $xpath_query->evaluate("/html/body/div[7]/div[4]/div[3]/div[2]/div[1]/div[2]/div/a/center/span");

foreach ($hrefs as $e) {
    echo $e->nodeValue;
}
$insert = $e->nodeValue;

echo "$insert";

1 个答案:

答案 0 :(得分:0)

不要使用cURL。只需使用

$dom->loadHTMLFile("http://www.teambuy.ca/calgary/");

不要使用

$xpath = new DOMXPath($dom);

只需使用

$href = $dom->xpath($xpath_query);

我想你的xpath查询也可以简化......

foreach ($hrefs as $e) {
    $e->nodeValue;
}

什么都不做。可能想要试试这个。

foreach ($hrefs as $e) {
    echo $e->nodeValue;
}