PHP刮掉没有扩展名的远程图像

时间:2012-08-01 19:47:29

标签: php javascript jquery image scraper

我开发了一个图像抓取器,它将从远程站点抓取特定图像,并在粘贴到文本字段时显示它们。逻辑包括查找以.jpg .jpeg结尾的图像。 png等。

我遇到了一个问题,很多网站都会通过javascript生成图片,或者没有图像扩展名作为显示图片的一部分。示例网站如

www.express.com和www.underarmour.com有这个问题还有更多。

我可以使用什么功能从设定的网址中查找图片,然后相应地显示没有文件扩展名的图片?

再次感谢。

2 个答案:

答案 0 :(得分:1)

除非网址来自<img src="...">,否则无法告诉您从特定网址获取的内容。 http://example.com/index.html实际上可能是一个提供zip文件的PHP脚本。

在您真正点击网址并检查标题+下载数据之前,可靠地告诉您网址会给您什么是不可能的。

答案 1 :(得分:1)

我认为,您有两种选择:

  1. 生成一些启发式方法,无论网址是否为图片(如在网址中查找部分/images/

  2. 加载每个网址并检查返回的数据是否为图片(例如使用getimagesize()

  3. 第二个版本更为通用,但在带宽和资源方面都非常重要。