HTML DOM Parser:如何仅从一个域获取URL?

时间:2013-09-26 09:35:41

标签: php

function get_link_and_anchor($url_awal) {
$html = file_get_html($url_awal);
$dom = new DOMDocument();
@$dom->loadHTML($html);
$anchors = $dom->getElementsByTagName('a');
foreach ($anchors as $anchor) {
    $url_dari_konten = $anchor->getAttribute('href');
    $urltext = $anchor->nodeValue;

    $url_hasil = url_to_absolute(@$url_awal, @$url_dari_konten);

    echo $urltext . " : " . $url_hasil . "<br/>";
}

}

结果:
Twitter:ht * ps://twitter.com/batagrams
Google +:ht * ps://plus.google.com/115711571208014927563
主页:ht * p://batagrams.com/
关于:ht * p://batagrams.com/about
培训:ht * p://batagrams.com/training
新闻:ht * p://batagrams.com/news

我只想得到:
主页:ht * p://batagrams.com/
关于:ht * p://batagrams.com/about
培训:ht * p://batagrams.com/training
新闻:ht * p://batagrams.com/news

我使用的是PHP Simple HTML DOM Parser和url_to_absolute

1 个答案:

答案 0 :(得分:0)

您可以使用

parse_url($url, PHP_URL_HOST) === "myhost.com"

过滤您找到的网址。