Question

我遇到simplehtmldom的问题我已将其跟踪到此代码块。我有大约70个不同的网址，我试图刮，但我的循环只通过两个。在第二次迭代中，file_get_html（$ url）仅将页面的一部分返回到$ html。嵌入的foreach循环将运行并打印出部分页面，然后它将从两个循环中踢出我而不会击中最后一个打印。关于这一点最奇怪的部分是它没有发出警告或错误。

foreach($urls as $url)
        {    
            $html = file_get_html( $url );
            $appList = $html->find("loc");
            foreach($appList as $each)
            {
                print "$each \n";
            }
            print "hello\n";

        }

请不要给出仅忽略第二个$ url的答案并继续下一次迭代。我需要每页上的所有信息

Answer 1

我通过使用简单的正则表达式和curl解决了这个问题。这是一个xml页面，所以

preg_match_all("@<loc.*?\/loc>@",$curlHTML,$locTags)

工作得很好，但我从来没有弄清楚simple_html_dom

发生了什么

为什么simplehtmldom会把我踢出循环而没有错误？

1 个答案: