网络抓取工具如何发现网页?

时间:2018-04-27 00:34:57

标签: web web-crawler

据我所知,网络抓取工具可能会使用某些种子作为网址开始重复查找网页,但它是如何发现的,只包含HTML而页面中没有任何链接且没有任何其他网页链接?

1 个答案:

答案 0 :(得分:0)

机器人使用多种方式来查找页面(大多数机器人的资源都非常受限制,因此只有主要机器人才能负担得起这里列出的所有内容):

  • html中的网址'a'标记
  • 其他标签,标签属性和文字
  • 中提到的网址
  • 样式表和javascript中提到的网址
  • 用户通过将其发送到搜索引擎的网络浏览器进行访问
  • 与上述相同,但浏览器插件
  • 提交的站点地图
  • 的robots.txt
  • 启发式(一些机器人尝试从网址中推断网址,并在网站上发现他们发现的模式)
  • 脚本在页面上运行,例如如果页面本身运行youtube或adsense脚本,谷歌将知道 等