PHP抓取动态加载的内容

时间:2012-04-01 10:09:23

标签: php web-scraping dynamic-content

我正在尝试搜索一个文章标题的网站,但是当用户向下滚动页面时,此页面仅加载五个第一个标题并加载更多(JSON调用更多文章并注入页面)。

我构建的网络抓取工具完美无缺,但只能找到前5个默认文章,而我想要实现的是加载超过5个。有没有办法用PHP实现,如果你能解释我为什么/如何运作我真的很感激,因为我喜欢学习这些东西。

1 个答案:

答案 0 :(得分:3)

你可以使用chrome的网络监视器来记录ajax请求的来源,然后从你的webscraper请求那些,但这确实是一个“make shift api”,并且如果站点改变它的json格式将会制动,你可以使用php函数json_decode解码json。

为了首先检索数据,您必须使用file_get_contents

但这只会允许GET 如果您想要更多“高级”选项(如POST),您将需要查看cURL