我遇到simplehtmldom的问题我已将其跟踪到此代码块。我有大约70个不同的网址,我试图刮,但我的循环只通过两个。在第二次迭代中,file_get_html($ url)仅将页面的一部分返回到$ html。嵌入的foreach循环将运行并打印出部分页面,然后它将从两个循环中踢出我而不会击中最后一个打印。关于这一点最奇怪的部分是它没有发出警告或错误。
foreach($urls as $url)
{
$html = file_get_html( $url );
$appList = $html->find("loc");
foreach($appList as $each)
{
print "$each \n";
}
print "hello\n";
}
请不要给出仅忽略第二个$ url的答案并继续下一次迭代。我需要每页上的所有信息
答案 0 :(得分:0)
我通过使用简单的正则表达式和curl解决了这个问题。这是一个xml页面,所以
preg_match_all("@<loc.*?\/loc>@",$curlHTML,$locTags)
工作得很好,但我从来没有弄清楚simple_html_dom
发生了什么