search-engine - 搜索引擎中的蜘蛛如何运作？

时间：2010-05-05 11:33:26

标签： search-engine

搜索引擎中的抓取工具或蜘蛛如何工作

答案 0 :(得分：3)

具体而言，您至少需要以下某些组件：

配置：需要告诉抓取工具如何，何时以及在何处连接到文档;以及如何连接到底层数据库/索引系统。
连接器：这将创建与网页或磁盘共享或其他任何内容的连接。
内存：已经访问过的网页必须为抓取工具所知。这通常存储在索引中，但它取决于实现和需求。内容也进行了散列，以便进行重复数据删除和更新验证。
分析器/转换器：需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
索引器：将数据和元数据推送到数据库/索引系统。
计划程序：将计划爬网程序的运行。可能需要同时处理大量正在运行的爬虫，并考虑到目前正在进行的工作。
连接算法：当解析器找到指向其他文档的链接时，需要分析下一次连接的时间，方式和位置。此外，一些索引算法会考虑页面连接图，因此可能需要存储和排序与此相关的信息。
政策管理：有些网站要求抓取工具尊重某些政策（例如robots.txt）。
安全/用户管理：抓取工具可能需要能够在某个系统中登录才能访问数据。
内容编译/执行：抓取工具可能需要执行某些操作才能访问内部内容，例如applet / plugins。

Crawlers需要从不同的起点，速度，内存使用和使用大量线程/进程协同工作。 I / O是关键。

答案 1 :(得分：3)

万维网基本上是网络文档，图像，多媒体文件等的连接有向图。图形的每个节点都是网页的一个组成部分 - 例如 - 一个由图像，文本，视频组成的网页等等，所有这些都是链接的.Crawler使用广度优先搜索使用网页中的链接遍历图形。

答案 2 :(得分：0)

任何蜘蛛如何通过网络开始旅行？通常的起点是大量使用的服务器和非常受欢迎的页面的列表。蜘蛛将从一个受欢迎的网站开始，索引其网页上的文字并跟踪网站中找到的每个链接。通过这种方式，蜘蛛网系统迅速开始行进，遍布网络中使用最广泛的部分。