如何在Storm中构建容错应用程序?

时间:2012-06-19 10:43:30

标签: distributed-computing apache-storm

问题的简短版本:如何在Twitter Storm中构建故障安全字数统计程序(拓扑),即使发生故障,也能产生准确结果?这甚至可能吗?

长版:我正在研究Twitter Storm,并试图了解它应该如何使用。我已经跟随tutorial并发现它是一个非常简单的概念。但是本教程中概述的单词计数示例不具有容错能力(因为 bolt 将一些数据保存在内存中)。如果将事件重新提交到链的开头(当某些 bolt 失败时发生),则会在后端DB中保存相同的数据会导致重复计算。

我是否应该将Twitter Storm视为生成部分准确结果的实时平台,并依然依赖MapReduce来获得准确的结果?

2 个答案:

答案 0 :(得分:2)

这实际上取决于你试图反对什么样的失败。您可以做一些事情:

  1. 风暴螺栓只有在处理后才会产生元组。如果您编写了您的喷口和螺栓以及拓扑结构来使用它,您可以实施“一次性”系统,以确保准确性。

  2. Kafka可以成为将数据放入Storm的好方法,因为它使用磁盘持久性来保持消息长时间消耗。这意味着如果消费者在线下发生故障,您可以检索它们。

  3. 一般来说,很难保证在任何流媒体系统中只处理一次。这是一个已知问题,有效解决这个问题非常困难。

答案 1 :(得分:0)

Storm具有事务拓扑的概念。实际上,这意味着您需要批量处理项目,然后在批处理结束时提交到数据库,将事务ID与计数一起存储在数据库中。这也有减少数据库负载的实际好处。

批处理是并行处理的,可能会在失败时重播,但保证按顺序提交。这很重要,因为它可以安全地编写获取当前计数行的代码,检查内存中的事务ID,如果两者不同(意味着它是未提交的批处理),则将新计数添加到现有计数行并提交更新的计数。

有关更多信息和代码示例,请参阅以下链接:

https://github.com/nathanmarz/storm/wiki/Transactional-topologies