标签: web-crawler search-engine
有人可以让我知道网站特定搜索引擎的架构,就像非常一般的答案一样,我不想要任何编码和其他东西作为理论。
我怀疑的第二个问题是:为了更快地抓取网页,您需要设置两个具有不同起始种子网址的不同抓取计算机。两台爬网计算机未设置为相互通信并共享数据。这是分布式网页抓取的有效策略吗?
答案 0 :(得分:0)