我正在尝试用页面上的id抓一个特定的div

时间:2013-04-02 21:59:23

标签: php domdocument web-scraping

我想要抓取页面的内容,实际上只是该页面中的一个div,并将其显示给网页上的小div内的用户。我只需要一个需要用户凭据的carfax页面的信息,所以我无法发布确切的代码,但我尝试使用google.com并遇到同样的问题,所以解决方案应该交叉。

现在我试过这个:

$webPage = file_get_contents('http://www.google.com');
$doc = new DOMDocument();
$doc->loadHTML($webPage);
$div = $doc->getElementById('lga');//this is the id to the div holding the image above the textbox
//echo $webPage;//this displays www.google.com minus the image. I imagine because of the file path
//var_dump($div);//this display "object(DOMElement)#2 (0) { }" and I'm not sure what that means
//echo $div;//this has a server error

我也在寻找simple_html_dom.php试图解决这个问题。

1 个答案:

答案 0 :(得分:4)

您可以使用:

/**
 * Downloads a web page from $url, selects the the element by $id
 * and returns it's xml string representation.
 */
function getElementByIdAsString($url, $id, $pretty = true) {
    $doc = new DOMDocument();
    @$doc->loadHTMLFile($url);

    if(!$doc) {
        throw new Exception("Failed to load $url");
    }

    // Obtain the element
    $element = $doc->getElementById($id);

    if(!$element) {
        throw new Exception("An element with id $id was not found");
    }

    if($pretty) {
        $doc->formatOutput = true;
    }

    // Return the string representation of the element
    return $doc->saveXML($element);
}

// call it:
echo getElementByIdAsString('http://www.google.com', 'lga');