对等分布式Web搜寻器,如何持久化数据?

时间:2019-08-05 00:52:55

标签: web-crawler dht chord

在本文中: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.9637&rep=rep1&type=pdf

它描述了使用类似于chord的DHT协议的点对点分布式Web爬网程序,其中每个节点负责自己的哈希URL值牧场进行爬网(使用将每个节点放置在环上的一致哈希)。

在本文中,他们指出,每个节点应维护自己独立的数据结构集,例如所见URL列表,要处理的文档列表,所见文档哈希列表等。每个节点将具有不同的工作线程线程同时从其在内存中的URL列表中选取并同时进行爬网,写回要处理的文档列表。

但它从未提及对这些数据结构使用哪种持久性策略。应该是

1)简单的RDBMS(如MySQL)将这些数据结构存储在单独的表中,并且每个表的前面都有一个缓存层?

OR

2)每个节点既具有爬网的业务逻辑,又可以充当Cassandra集群中的Cassandra节点?

0 个答案:

没有答案