使用PHP爬虫获取属性

时间:2013-04-26 16:51:47

标签: php web-crawler

我正在尝试从抓取网站中获取名称,地址和位置。它是一个单页,不想要除此之外的任何其他东西。我使用以下代码。

<?php

include 'simple_html_dom.php';

$html = "http://www.phunwa.com/phone/0191/2604233";
$dom = new DomDocument();
$dom->loadHtml($html);
$xpath = new DomXpath($dom);
$div = $xpath->query('//*[@class="address-tags"]')->item(0);
for($i=0; $i < $div->length; $i++ )
    {

        print "nodename=".$div->item( $i )->nodeName;
        print "\t";
         print "nodevalue : ".$div->item( $i )->nodeValue;
         print "\r\n";
            echo $link->getElementsByTagName("<p>");
    }
?>

网站html源代码是

 <div class="address-tags">
            <p><strong>Name:</strong> RAJ GOPAL SINGH</p>
            <p><strong>Address:</strong> R/O BARNAI NETARKOTHIAN, P.O.MUTHI TEH.&amp; DISTT.JAMMU,X, 181206</p>
            <p><strong>Location:</strong> JAMMU, Jammu &amp; Kashmir, India</p>
            <p><strong>Other Numbers:</strong> <a href="/phone/191/2604233">01912604233</a> | <a href="/phone/191/2604233">+911912604233</a> | <a href="/phone/191/2604233">+91-191-2604233</a></p>

可以somone请帮我把三个属性作为输出。到目前为止,页面上没有任何东西是回声。

非常感谢。

2 个答案:

答案 0 :(得分:0)

您应该将以下内容用于XPath查询:

//*[@class='address-tags']/p

所以你要检索作为'address-tags'父级的子节点的实际段落节点。然后你可以在它们上面使用循环:

$nodes = $xpath->query('//*[@class="address-tags"]/p');
for ($i = 0; $i < $nodes->length; $i++) {
   echo $nodes->item($i)->nodeValue;
} 
// or just
foreach($nodes as $node) {
   echo $node->nodeValue;
}

现在你的代码正确地获取了找到的第一个div,但是你继续将该div视为从xpath查询返回的DOMNodeList,这是不正确的。 ->item()返回一个DOMNode对象,该对象没有->item()方法。

答案 1 :(得分:0)

您需要$dom->load($html);而不是$dom->loadHtml($html);。这样做之后你会;发现你的html格式不正确,所以$xpath保持空白。

也许尝试类似的事情:

$html = file_get_contents('http://www.phunwa.com/phone/0191/2604233');

$name = preg_replace('/(.*)(<p><strong>Name:<\/strong> )([^<]+)(<\/p>)(.*)/mis','$3',$html);
$address = preg_replace('/(.*)(<p><strong>Address:<\/strong> )([^<]+)(<\/p>)(.*)/mis','$3',$html);
$location = preg_replace('/(.*)(<p><strong>Location:<\/strong> )([^<]+)(<\/p>)(.*)/mis','$3',$html);
$othernumbers = preg_replace('/(.*)(<p><strong>Other Numbers:<\/strong> )(.*)/mis','$3',$html);
list($othernumbers,$trash)= preg_split('/<\/p>/mis',$othernumbers,0);
echo 'name: '.$name.'<br>address: '.$address.'<br>location: '.$location.'<br>other numbers: '.$othernumbers;
exit;