搜索引擎中的蜘蛛如何运作?

时间:2010-05-05 11:33:26

标签: search-engine

搜索引擎中的抓取工具或蜘蛛如何工作

3 个答案:

答案 0 :(得分:3)

具体而言,您至少需要以下某些组件:

  • 配置:需要告诉抓取工具如何,何时以及在何处连接到文档;以及如何连接到底层数据库/索引系统。
  • 连接器:这将创建与网页或磁盘共享或其他任何内容的连接。
  • 内存:已经访问过的网页必须为抓取工具所知。这通常存储在索引中,但它取决于实现和需求。内容也进行了散列,以便进行重复数据删除和更新验证。
  • 分析器/转换器:需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
  • 索引器:将数据和元数据推送到数据库/索引系统。
  • 计划程序:将计划爬网程序的运行。可能需要同时处理大量正在运行的爬虫,并考虑到目前正在进行的工作。
  • 连接算法:当解析器找到指向其他文档的链接时,需要分析下一次连接的时间,方式和位置。此外,一些索引算法会考虑页面连接图,因此可能需要存储和排序与此相关的信息。
  • 政策管理:有些网站要求抓取工具尊重某些政策(例如robots.txt)。
  • 安全/用户管理:抓取工具可能需要能够在某个系统中登录才能访问数据。
  • 内容编译/执行:抓取工具可能需要执行某些操作才能访问内部内容,例如applet / plugins。

Crawlers需要从不同的起点,速度,内存使用和使用大量线程/进程协同工作。 I / O是关键。

答案 1 :(得分:3)

万维网基本上是网络文档,图像,多媒体文件等的连接有向图。图形的每个节点都是网页的一个组成部分 - 例如 - 一个由图像,文本,视频组成的网页等等,所有这些都是链接的.Crawler使用广度优先搜索使用网页中的链接遍历图形。

  1. 抓取工具最初以一个(或多个)种子点开头。
  2. 它会扫描网页并浏览该页面中的链接。
  3. 此过程一直持续到探索完所有图形(某些预定义约束可用于限制搜索深度)。

答案 2 :(得分:0)

来自How Stuff Works

  

任何蜘蛛如何通过网络开始旅行?通常的起点是大量使用的服务器和非常受欢迎的页面的列表。蜘蛛将从一个受欢迎的网站开始,索引其网页上的文字并跟踪网站中找到的每个链接。通过这种方式,蜘蛛网系统迅速开始行进,遍布网络中使用最广泛的部分。