应用错误收集

它描述了使用类似于chord的DHT协议的点对点分布式Web爬网程序，其中每个节点负责自己的哈希URL值牧场进行爬网（使用将每个节点放置在环上的一致哈希）。

在本文中，他们指出，每个节点应维护自己独立的数据结构集，例如所见URL列表，要处理的文档列表，所见文档哈希列表等。每个节点将具有不同的工作线程线程同时从其在内存中的URL列表中选取并同时进行爬网，写回要处理的文档列表。

但它从未提及对这些数据结构使用哪种持久性策略。应该是

1）简单的RDBMS（如MySQL）将这些数据结构存储在单独的表中，并且每个表的前面都有一个缓存层？

2）每个节点既具有爬网的业务逻辑，又可以充当Cassandra集群中的Cassandra节点？