DOMDocument有时会返回字符纠结

时间:2019-02-23 18:28:31

标签: php domdocument php-7.3

我需要从php的外部网站中提取DOM。我尝试测试URL,但有时它会显示许多中文字母:)(不过更确切地说是unicode中的字符) 奇怪的是,如果我使用其他链接,它可以工作,但是如果我使用下面的链接并运行php例如3次,则在3.尝试后停止工作(但对于1,它显示正常的DOM结构的时间为2)。

URL:https://www.csfd.cz/film/300902-bohemian-rhapsody/prehled/

3(大约)后的DOM:https://i.stack.imgur.com/lnM1I.png

代码:

$doc = new \DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTMLFile("https://www.csfd.cz/film/300902-bohemian-rhapsody/prehled/");
dd($doc->saveHTML());

有人知道该怎么做吗?

1 个答案:

答案 0 :(得分:1)

我想是因为网站压缩,您可以使用good old curl提取数据:

requirements.txt