从页面上的内容获取HREF值

时间:2018-10-09 11:34:36

标签: javascript php

我正在从这样格式化的页面上获取数据

<span id="RANDOMINFO">
 <a href="/DEMO/RANDOMDATA">+</a>
 <span title="1">DATA I WANT HERE</span> 
<a href="https://URL.COM/">CLICK</a> 
<a href="https://URL.COM/">MORE RANDOM DATA</a>
</span>
<span id="RANDOMINFO">
 <a href="/DEMO/RANDOMDATA">+</a>
 <span title="2">DATA I WANT HERE</span> 
<a href="https://URL.COM/RANDOM">CLICK</a> 
<a href="https://URL.COM/RANDOM">MORE RANDOM DATA</a>
</span>

如何从页面获取href值

这里是我必须从span ID获取数据的代码,但是由于存在href,所以不知道如何为no name or id做数据

       $doc = new DOMDocument();
        @$doc->loadHTML($html2);
                foreach($doc->getElementsByTagName('span') as $element ) 
                    { 
                        if (!empty($element->attributes->getNamedItem('id')->value)) 
                        { 
                        $filename = 'newpks/'.$f.'.txt';
                         $file = fopen($filename,"a");

                        $data = $element->attributes->getNamedItem('id')->value.PHP_EOL;
                        fwrite($file,$data);
                        fclose($file);
                        $i++;
                        $end = $start;
                        }
                    }

1 个答案:

答案 0 :(得分:2)

我假设您只对具有href属性的链接感兴趣,然后我们知道标记的类型为a。这样就足够了(尽管我还无法测试代码)。

我对代码进行了一些优化,因为DOMNode类继承自DOMElement,因此您可以使用hasAttributegetAttribute

foreach($doc->getElementsByTagName('a') as $element ) { 
    if ($element->hasAttribute('href')) { 
        $href = $element->getAttribute('href');
        // Do your work here
    }
}