标签: web-crawler distributed-computing
我有很多网络抓取工具在不同的服务器上运行。
我希望这些抓取工具能够共享他们已经抓取的每个网址的指纹。
我可以通过让每个爬虫在SQL服务器中检查finderprint来实现这一点。
但是 - 有更合适的方式吗?我只是想把它包含在一套中。 SQL服务器似乎有点矫枉过正。
我正在使用ubuntu。
答案 0 :(得分:0)
还有其他数据存储,redis非常常见,但如果您在Microsoft上运行,则可能需要查看RavenDB。两者基本上都是具有一些附加功能的键/值存储,但您不需要使用它们。