为什么simplehtmldom会把我踢出循环而没有错误?

时间:2013-08-01 14:15:58

标签: php web-scraping simple-html-dom

我遇到simplehtmldom的问题我已将其跟踪到此代码块。我有大约70个不同的网址,我试图刮,但我的循环只通过两个。在第二次迭代中,file_get_html($ url)仅将页面的一部分返回到$ html。嵌入的foreach循环将运行并打印出部分页面,然后它将从两个循环中踢出我而不会击中最后一个打印。关于这一点最奇怪的部分是它没有发出警告或错误。

foreach($urls as $url)
        {    
            $html = file_get_html( $url );
            $appList = $html->find("loc");
            foreach($appList as $each)
            {
                print "$each \n";
            }
            print "hello\n";

        }

请不要给出仅忽略第二个$ url的答案并继续下一次迭代。我需要每页上的所有信息

1 个答案:

答案 0 :(得分:0)

我通过使用简单的正则表达式和curl解决了这个问题。这是一个xml页面,所以

preg_match_all("@<loc.*?\/loc>@",$curlHTML,$locTags)

工作得很好,但我从来没有弄清楚simple_html_dom

发生了什么