我最近遇到过Apache Kylin,很好奇它的用例是什么。据我所知,它似乎是一个工具,旨在解决与超过10亿行相关的非常具体的问题,聚合,缓存和查询来自其他来源(HBase,Hadoop,Hive)的数据。我在这个假设中是否正确?
答案 0 :(得分:1)
Apache Kylin的使用案例是Hadoop上的交互式大数据分析。它允许您以3个简单的步骤以亚秒级延迟查询大型Hive表。
用例非常通用,只要您可以从表中定义星型模式和模型多维数据集,它就可以快速查询任何Hive表。如果您不确定什么是星型模式以及什么是多维数据集,请查看Kylin terminologies。
Kylin提供ANSI SQL接口,因此您可以像以前一样查询Hive表。然而,一个限制是Kylin只提供汇总结果,换句话说,SQL应该包含一个" group by"产生正确结果的条款。这通常很好,因为大数据分析更多地关注聚合结果而不是单个记录。