PHP simple_html_dom无法正确解析Apple维基百科页面

时间:2015-03-22 17:28:53

标签: php html dom simple-html-dom

我正在尝试解析维基百科页面 - 由于某种原因,下面的代码适用于所有维基百科页面(Apple维基百科页面除外!!!)

include ('simple_html_dom.php');
$url = "http://en.wikipedia.org/wiki/Apple_Inc.";

$html = file_get_html($url);

以上$ html的Strlen为Apple返回0。

注意:当$ url设置为其他维基百科页面时,上面的代码完全正常 - http://en.wikipedia.org/wiki/Microsoft - 对于帝亚吉欧 - http://en.wikipedia.org/wiki/Diageo

我想使用file_get_html - 这样我就可以将它放入DOM对象并进一步处理它。

1 个答案:

答案 0 :(得分:2)

将simple_html_dom.php中的MAX_FILE_SIZE常量更改为,例如

define('MAX_FILE_SIZE', 800000);

你很高兴去... :)这是你在苹果页面得到'0'的方式。 Strlen超出限制......

if (empty($contents) || strlen($contents) > MAX_FILE_SIZE)
{
    return false;
}