如何在Lambda架构中实现合并操作?

时间:2015-02-24 01:38:21

标签: lambda-architecture

我正在实施Lambda架构,分别使用火花和火花流进行批处理层和速度层。到目前为止,我在HBase中存储了批处理视图和实时视图,但是在不同的表中。

我坚持如何合并批处理视图生成的批处理视图和速度层生成的实时视图,以便进行查询。怎么做对了?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?

1 个答案:

答案 0 :(得分:0)

首先,我认为HBase不是实时视图的最佳选择,因为重载随机读/随机写不是HBase最强的一面。

无论如何,一种方法可以是:

  • 在Spark中缓存批处理视图,例如DataFrame / DataSet
  • 通过Spark获取实时内容并将其表示为DataFrame / DataSet
  • 创建适当的管道以在需要时合并这些结构,例如根据用户界面等的要求,

非常简化的流程可以在我的github中找到