如何在Hive中提取子字符串

时间:2018-07-03 01:06:35

标签: python sql dictionary hive

我在尝试提取Hive中的子字符串时遇到麻烦。我正在处理的表格有一个名为Referee_dict的列,其中显示了排名和相应的玩家ID。例如,一条记录可能如下所示:

[('Bronze1', [2738653, 2738652, 2738655]), ('Bronze2', [2738653, 2738652]), ('Bronze3', []), ('Silver1', []), ('Silver2', []), ('Silver3', [])

我试图找到获得铜牌2的球员,所以我想从列表中提取[2738653,2738652]。我知道在Python中这很容易,但是,我查阅了Hive的文档,但仍然不知道如何在sql / Hive中做到这一点。任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:0)

好吧,我想我想出了一种方法。但是我不知道这是否是最简单的方法。由于它是一个字符串,因此我将使用正则表达式来捕获“ Bronze1'[”之后和下一个“]”之前的子字符串。我要使用的功能是
regexp_extract(字符串主题,字符串模式,int索引)。如果有人有类似问题,希望这对您有所帮助。