cURL - 仅在html页面(链接)时获取数据

时间:2011-04-01 14:30:53

标签: php html curl web-crawler

我正在构建一个CSS Optimizer网站,在此我将提供一个用户提交网站URL的选项,在后端,服务器将解析该域内的所有anchorslink标签。因此,这将使网站能够连接+压缩css,这可能在所有不同页面上都是唯一的。

由于我的所有网站需求都是anchor (html)<link>我应该怎么做以避免获取non-html (like .doc, .pdf)等链接

2 个答案:

答案 0 :(得分:1)

我认为你不能只回复目标的扩展。干净的URL通常不会在末尾添加扩展,可能会生成内容。

您应该在每个URL上执行HTTP HEAD,然后检查返回的Content-Type。

答案 1 :(得分:0)

如何使用mime_content_type()检查相关链接的mime类型?