Spark Streaming是否能够为每个批次将数据存储在数据库中?

时间:2018-08-26 11:42:54

标签: database scala apache-spark spark-streaming

是否可以使数据库保持活力,执行者在其中写入和读取一批数据,然后清除数据库以为下一批再次启动。

如果我们要每批处理10万个条目,这样的速度快吗? 我应该为初学者使用哪个数据库?

1 个答案:

答案 0 :(得分:0)

是的,可以存储每个批次的数据。

Streaming Sink — Adding Batches of Data to Storage

Spark Streaming - obtain batch-level performance stats

您可以将数据存储在HDFS,NO-SQL数据库(如Cassandra,HBase,MongoDB)中。选择任何特定的数据存储目标(在您的情况下为数据库)取决于您的业务问题。

在性能检索率,处理率,存储空间等方面,需要权衡使用每个数据库。comparison