标签: algorithm hive approximate
每个人,在蜂巢中,我们都使用
select word,count(*) as cnt from table group by word order by cnt limit N
用于前N个查询。 由于我们知道速度不快,我学习了top-k查询的一些近似算法,例如countketch算法或其他算法。 我们可以在hive中加入近似算法来加速top-k查询吗?