我想加载一个网页并从中提取一些项目。我正在使用php。这是我的代码
<?php
$html = file_get_contents('www.website.com');
$pokemon_doc = new DOMDocument();
libxml_use_internal_errors(TRUE); //disable libxml errors
if(!empty($html)){ //if any html is actually returned
echo $html;
}
?>
当我比较www.website.com的源代码和我编码的html时,我看到一些标签发生了变化。例如,有
<span class="str">
在www.website.com中更改为
的代码<h5 class="item-subtitle">
在我的loded html中。是什么原因以及如何纠正?
答案 0 :(得分:0)
有些网站会使用JavaScript更改标记。使用file_get_contents
加载网站标记时,您不会运行其JavaScript,但实际上只是检索HTML。将您检索到的HTML与&#34;查看页面源&#34;进行比较在您的浏览器中。那些应该是一样的。
希望您可以从该HTML解析您的内容,如果没有,您将需要联系该网站的所有者并连接到他们的API,如果他们提供的话。