在服务器之间共享列表的适当方法

时间:2014-06-02 22:45:05

标签: web-crawler distributed-computing

我有很多网络抓取工具在不同的服务器上运行。

我希望这些抓取工具能够共享他们已经抓取的每个网址的指纹。

我可以通过让每个爬虫在SQL服务器中检查finderprint来实现这一点。

但是 - 有更合适的方式吗?我只是想把它包含在一套中。 SQL服务器似乎有点矫枉过正。

我正在使用ubuntu。

1 个答案:

答案 0 :(得分:0)

还有其他数据存储,redis非常常见,但如果您在Microsoft上运行,则可能需要查看RavenDB。两者基本上都是具有一些附加功能的键/值存储,但您不需要使用它们。