在PHP中的图片爬虫

时间:2014-03-05 10:22:40

标签: php web-crawler

问题是如何获取ajax调用源代码?这不会被抓取,例如如何抓取像这样的链接上的图片? http://www.tiendeo.nl/Catalogi/amsterdam/16558&subori=web_sliders&buscar=Boni&sw=1366

如果你检查元素,它会在图片所在的中间显示正确的代码。但是如何抓住这个?如果单击下一页,则源中将包含其他图像。如何获取所有图像的来源?

1 个答案:

答案 0 :(得分:0)

如果我正确理解了您的问题(如何通过ajax调用抓取加载到页面中的信息?),答案是你要么需要某种支持javascript的抓取工具,要么你需要检查javascript来弄清楚正在轮询哪些资源来加载您感兴趣的内容。从PHP开始,您应该能够向这些URL发送curl get请求,并接收网站的javascript用于呈现条目的相同响应。

后一个选项有一些奖励 - 即您很可能能够获得对您的请求的简单易用的JSON响应。

与大多数网络抓取工作一样,某些内容提供商往往不会理解您对其数据的兴趣(特别是如果您以对其系统或资源造成过度压力的方式收集数据)。请记住,如果他们发现/介意,他们会采取措施(技术或法律)阻止您。

<强>附录: 如果您希望抓取各种类似的网站,而需要查看源代码以查找他们正在使用的资源,(让我们说,为了争论你只是想尝试天真地从几个销售相同类型物品的网站上刮掉一定大小的所有图像),你需要前一个选项 - 某种javascript感知刮刀。我不知道这样的事情是否存在,但我不会感到惊讶。