我正在考虑为HBase编写查询语言。使用此查询语言,用户将能够应用过滤器,跨行映射函数以及聚合/减少数据。 (更重要的是,它是一种特定于域的查询语言。)想象一下,如果使用HBase,那么数据集就非常大了。
我的问题是:如何在不同的过滤器,映射和聚合之间处理中间数据。我应该将数据保存在文件系统中吗?这看起来有点浪费。我应该尝试撰写功能并一次性完成所有工作吗?
我意识到这取决于我想要实现什么以及我的查询语言会是什么样子。但这个一般性问题通常是如何处理的?您有任何提示或见解可供分享吗?是否有任何好的文章/资源可以解决这个问题?
答案 0 :(得分:1)
答案 1 :(得分:1)