我想使用php抓取工具

时间:2016-09-15 10:22:39

标签: php html web-crawler phpcrawl

我不知道该怎么做,我可能会得到一些投票。

我有一个类似的网页:

<li class="specific-class">
    <a href="http://unknown-url.com">Unknown Link</a>
</li>

我想抓取一个页面,其中包含我不想检索的其他几个元素。

我想在href元素中仅检索锚标记中的li属性,而不是其他任何内容。之后,我将关注该链接并获得另一个具有以下内容的网页:

<h1 class="specific-class">Blah Blah Blah</h1>

所以最后,我会得到h1元素中的任何内容:

Blah Blah Blah

如果你们能帮助我解决这个问题,我将非常感激。此外,任何API都可以很好地完成。

我有这段代码从元素中获取属性,但我无法让它抓取在特定元素中找到的元素。

<?php
include_once('simple_html_dom.php');
$target_url = "https://www.google.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
     echo $link->href."<br>";

}

?>

1 个答案:

答案 0 :(得分:-1)

请阅读DOMDocument。您可以使用以下方法:getElementsByTagName,getElementById等。