分布式爬虫和一致性

时间:2019-06-04 14:17:30

标签: mysql perl redis web-crawler data-consistency

情况是,我们有多台服务器(40台以上)同时刮取一个相同的URL(以确保我们拥有最小的旧版)并将数据保存到数据库(MySQL)中。

现在的问题是:数据来回切换。例如,由于搜寻器/数据库的遗留问题,其内容在几秒钟之内就是A <-> B <-> A <-> B <-> A。

有什么好的方法可以防止它?我们正在用Perl编写爬虫程序,但是任何一种语言对我们来说都可以,因为我们可以借鉴这个想法。

任何提示将不胜感激。 Redis? ZeroMQ?

谢谢

1 个答案:

答案 0 :(得分:2)