我正在使用遗留蜂巢表,其中有一个字段" active_countries"存储值列表
e.g。
active_countries = [US, CA, MX]
如何对" active_countries"进行分组,并在跟踪单个条目时进行计数(*)。
e.g。如果我的表包含
date | active_countries
Mar-12 | [US, CA, MX]
Mar-13 | [US, CA]
当我执行GROUP BY日期,active_countries时,我希望看到以下格式的内容
date | active_country
Mar-12 | US
Mar-12 | CA
Mar-12 | MX
Mar-13 | US
Mar-13 | CA
答案 0 :(得分:1)
使用Hive的爆炸UDF将数组转换为多行,每行一个。
请参阅https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
上的爆炸文档