卷曲检查域是否为root

时间:2011-12-06 15:12:11

标签: php curl

您好我想制作一只小蜘蛛。 在构建它时,我遇到了一个问题,我需要检查链接是否是根域链接或子域链接。

例如:

http://www.domain.com or
http://domain.com 
http://domain.com/index.php
http://domain.com/default.php
http://domain.com/index.html
http://domain.com/default.html

。 。 等等 都是一样的。

所以我需要一个实际的函数,它将字符串url作为输入,并检查它是根目录还是主页,无论你喜欢称它为某个站点。

1 个答案:

答案 0 :(得分:0)

如评论中所述,这实际上是编码蜘蛛的基本方面。如果您打算编写通用蜘蛛代码,则需要添加解析URL的方法,并检测它们是否指向相同的内容以及以何种方式(通过重定向或仅通过重复内容),以及何种类型的他们指向的内容。

您至少需要处理:

  • 相对路径
  • 以某种方式对网页有重要意义的GET变量,但不会在内容中产生差异。
  • 格式错误的网址。
  • href属性中的JavaScript相关信息。
  • 指向非HTML材料的链接 - 直接下载指向PDF,图像等的链接(在扩展程序中检测它并不总是足够,使用PHP脚本提供图像的内容)。

这些只是其中的一些方面,但如果您打算以任何通用的方式使用它,那么这一切都可以归结为对你的后遗症必须是蜘蛛的基本部分。