如何使用Hive摆脱URL中的查询?

时间:2019-02-05 21:46:04

标签: hive

我有几百万个网址,看起来像:

www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld

我想摆脱网址查询,使它们看起来都像这样:

www.wikipedia.com/helloworld

我该怎么做?用正则表达式安全吗?我应该改用parse_url(Hive)吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以将parse_url函数与http://https://串联使用到现有列,并获得HOSTPATH值以将它们串联以获得理想的结果。

select CONCAT(parse_url(concat('http://',col),'HOST'),
              parse_url(concat('http://',col),'PATH')
             )
from tbl