应用错误收集

网络抓取工具如何发现网页？

时间：2018-04-27 00:34:57

标签： web web-crawler

据我所知，网络抓取工具可能会使用某些种子作为网址开始重复查找网页，但它是如何发现的，只包含HTML而页面中没有任何链接且没有任何其他网页链接？

1 个答案:

答案 0 :(得分：0)

机器人使用多种方式来查找页面（大多数机器人的资源都非常受限制，因此只有主要机器人才能负担得起这里列出的所有内容）：

html中的网址'a'标记
其他标签，标签属性和文字
样式表和javascript中提到的网址
用户通过将其发送到搜索引擎的网络浏览器进行访问
与上述相同，但浏览器插件
提交的站点地图
的robots.txt
启发式（一些机器人尝试从网址中推断网址，并在网站上发现他们发现的模式）
脚本在页面上运行，例如如果页面本身运行youtube或adsense脚本，谷歌将知道等