应用错误收集

分布式爬虫和一致性

时间：2019-06-04 14:17:30

标签： mysql perl redis web-crawler data-consistency

情况是，我们有多台服务器（40台以上）同时刮取一个相同的URL（以确保我们拥有最小的旧版）并将数据保存到数据库（MySQL）中。

现在的问题是：数据来回切换。例如，由于搜寻器/数据库的遗留问题，其内容在几秒钟之内就是A <-> B <-> A <-> B <-> A。

有什么好的方法可以防止它？我们正在用Perl编写爬虫程序，但是任何一种语言对我们来说都可以，因为我们可以借鉴这个想法。

任何提示将不胜感激。 Redis？ ZeroMQ？

谢谢

1 个答案:

答案 0 :(得分：2)

Lock a row so another process cannot update it.