在本文中: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.9637&rep=rep1&type=pdf
它描述了使用类似于chord的DHT协议的点对点分布式Web爬网程序,其中每个节点负责自己的哈希URL值牧场进行爬网(使用将每个节点放置在环上的一致哈希)。
在本文中,他们指出,每个节点应维护自己独立的数据结构集,例如所见URL列表,要处理的文档列表,所见文档哈希列表等。每个节点将具有不同的工作线程线程同时从其在内存中的URL列表中选取并同时进行爬网,写回要处理的文档列表。
但它从未提及对这些数据结构使用哪种持久性策略。应该是
1)简单的RDBMS(如MySQL)将这些数据结构存储在单独的表中,并且每个表的前面都有一个缓存层?
OR
2)每个节点既具有爬网的业务逻辑,又可以充当Cassandra集群中的Cassandra节点?