如何从网页上抓取数据?

时间:2014-12-02 12:47:12

标签: php web-scraping

我需要从网页上显示一些新闻,所以我需要从网站上提取数据。但我无法提取数据如下代码:

$html=file_get_html("http://listverse.com/2014/12/01/10-times-us-foreign-policy-was-wildly-inconsistent/");
     foreach($html->find('article h2') as $element)
     {
        echo "<h2>".$element->plaintext."</h2>"."<br>";

        foreach ($html->find('article h2 p') as $element1) {

            echo "<pre>";print_r($element1->plaintext );
        }

但我得到了正确的标题,但每个段落都是多余的。

1 个答案:

答案 0 :(得分:1)

段落跟随标题,它们不是它们的后代(并且HTML不允许段落从标题下降)。

得到标题之后,你需要看看他们的兄弟姐妹(例如,在你得到一个不是一个段落或者是另一个标题的情况下循环它们。)

相关问题