有状态和无状态流(Spark)

时间:2016-10-28 00:15:24

标签: hadoop apache-spark apache-storm

我知道有状态和无状态流进程之间的区别。我读到Storm是无国籍的,而Trident是有状态的。我还读到Hadoop(用于批处理)是有状态的,Spark可以计算有状态操作。

有人可以澄清其中的每一项吗?具体地,

  1. 火花可以做有状态和无状态的操作吗?
  2. Hadoop是有状态的,因为我们只讨论Hadoop的批量处理。
    1. Apache Storm如何处理有状态流? (使用Trident?)

1 个答案:

答案 0 :(得分:0)

1-yes spark使用mapWithState

进行有状态和无状态操作Stateful Stream Processing

有关详细信息,请参阅https://databricks.com/blog/2016/02/01/faster-stateful-stream-processing-in-apache-spark-streaming.html

2-Hadoop是有状态的,因为它只读了一次