我正在实施Lambda架构,分别使用火花和火花流进行批处理层和速度层。到目前为止,我在HBase中存储了批处理视图和实时视图,但是在不同的表中。
我坚持如何合并批处理视图生成的批处理视图和速度层生成的实时视图,以便进行查询。怎么做对了?我应该将它们转储到同一个HBase表中,客户端直接查询HBase吗?
答案 0 :(得分:0)
首先,我认为HBase不是实时视图的最佳选择,因为重载随机读/随机写不是HBase最强的一面。
无论如何,一种方法可以是:
DataFrame
/ DataSet
DataFrame
/ DataSet
非常简化的流程可以在我的github中找到