我有几百万个网址,看起来像:
www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld
我想摆脱网址查询,使它们看起来都像这样:
www.wikipedia.com/helloworld
我该怎么做?用正则表达式安全吗?我应该改用parse_url
(Hive)吗?
谢谢!
答案 0 :(得分:1)
您可以将parse_url
函数与http://
或https://
串联使用到现有列,并获得HOST
和PATH
值以将它们串联以获得理想的结果。
select CONCAT(parse_url(concat('http://',col),'HOST'),
parse_url(concat('http://',col),'PATH')
)
from tbl