Hive Split功能可选择最后一组

时间:2016-10-06 14:06:11

标签: hadoop hive hiveql

我想拆分一个URL结构,我只对拆分的最后一部分感兴趣。 例如

www.example.com/subdirect/mainpage.aspx
www.example.com/mainpage4.aspx
www.example.com/subdirect/subdiret/subdirect2/mainpage2.aspx

这里我只想要aspx页面而不是之前的东西,即我只想返回下面的文字

mainpage.aspx
mainpage4.aspx
mainpage2.aspx

我尝试使用split但我不确定如何动态返回URL结构的最后一部分。有任何想法吗? 这是我正在尝试的脚本

select split(URL,'/')[MAX] from URLlist

1 个答案:

答案 0 :(得分:0)

以下是使用regexp_extract

的解决方案
select regexp_extract(URL, '.*/([^/]+)$', 1) from URLlist

这将匹配并捕获最后/个字符

之后的所有内容