我想学习,
通常,它遵循什么顺序?
请,我想要一个描述性的内容
谢谢
答案 0 :(得分:2)
典型的多线程搜寻器的过程如下:
我们有一个队列数据结构,称为frontier
。新发现的URL(或起点,所谓的种子)将添加到此数据结构中。另外,为每个URL分配一个唯一的ID,以确定先前是否访问过给定的URL。
搜寻器线程从frontier
获取URL,并计划它们以供以后处理。
实际处理开始:
robots.txt
,以遵守排除标准并成为礼貌的网络爬虫(可配置)crawler4j
中,可以通过shouldVisit(...)
进行控制)。重复整个过程,直到没有新的URL添加到frontier
。
除了crawler4j
的实现细节外,(在单个服务器/ PC上)或多或少的通用(重点)搜寻器体系结构看起来像这样:
免责声明:图像是我自己的作品。请通过参考这篇文章来尊重这一点。