抓取未引用的网址

时间:2014-05-12 08:27:12

标签: php html asp.net web-crawler

我一直在从头构建工具,以生成特定域名中网页的可视化图表。如果页面链接到另一个页面,则它由图中的边缘表示。我的项目是调查Web开发人员如何在特定网站内链接他们的页面。我的目标是在大约100个非盈利网站上运行此工具并分析结果。

有一个问题:

某些页面未被互联网上的任何其他页面链接(它们是独立页面)。有什么方法可以在特定域名或域名中的特定目录中获取此类网页的列表。

示例:假设我们有www.example.com/abc/xyz.asp xyz.asp未链接到互联网上的任何其他页面,并且父目录(www.example.com/abc/)上的目录列表也被禁用。如何知道该特定位置是否存在网页。

我对asp和php域特别感兴趣。我的假设是,链接页面将形成一个群集,独立页面将像天空中的星星一样独立。生成图表后,我需要计算一些系数。

0 个答案:

没有答案