您好我想制作一只小蜘蛛。 在构建它时,我遇到了一个问题,我需要检查链接是否是根域链接或子域链接。
例如:
http://www.domain.com or
http://domain.com
http://domain.com/index.php
http://domain.com/default.php
http://domain.com/index.html
http://domain.com/default.html
。 。 等等 都是一样的。
所以我需要一个实际的函数,它将字符串url作为输入,并检查它是根目录还是主页,无论你喜欢称它为某个站点。
答案 0 :(得分:0)
如评论中所述,这实际上是编码蜘蛛的基本方面。如果您打算编写通用蜘蛛代码,则需要添加解析URL的方法,并检测它们是否指向相同的内容以及以何种方式(通过重定向或仅通过重复内容),以及何种类型的他们指向的内容。
您至少需要处理:
这些只是其中的一些方面,但如果您打算以任何通用的方式使用它,那么这一切都可以归结为对你的后遗症必须是蜘蛛的基本部分。