正则表达式从网页上刮取数据

时间:2014-04-28 07:53:03

标签: php regex

我尝试使用正则表达式从网页中删除数据,但它会提供DOM警告。所以我想知道,正则表达式是否可以从此页面中删除日期,审核,评估价值?

  

http://www.yelp.com/biz/franchino-san-francisco?start=80

这是DOM:

  

https://eval.in/143074给出错误。

     

这适用于较小的代码:https://eval.in/143036

是否可以使用正则表达式?

<?php
$html= file_get_contents('http://www.yelp.com/biz/franchino-san-francisco?start=80');

$html = escapeshellarg($html) ;
$html = nl2br($html);

$classname = 'rating-qualifier';
$dom = new DOMDocument;
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$results = $xpath->query("//*[@class='" . $classname . "']");

if ($results->length > 0) {
    echo $review = $results->item(0)->nodeValue;
}


$classname = 'review_comment ieSucks';
$dom = new DOMDocument;
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$results = $xpath->query("//*[@class='" . $classname . "']");

if ($results->length > 0) {
    echo $review = $results->item(0)->nodeValue;
}

$meta = $dom->documentElement->getElementsByTagName("meta");
echo $meta->item(0)->getAttribute('content');
?>

0 个答案:

没有答案