使用带有Presto DB的regex从引用URL中提取域名

时间:2018-05-30 19:23:23

标签: regex presto

我正在尝试从PrestoDB中的引荐来源网址列表中提取域名。使用url_extract_host函数我有一个如下所示的列表。我一直试图从字符串中获取域名。

Presto使用java样式的模式语法。

我在下面有一个字符串列表,所有字符串都应该返回google

google.com google.co.il blog.google.com blog.google.co.il

感谢任何帮助表示赞赏

1 个答案:

答案 0 :(得分:0)

我认为您可以使用Mozilla维护的Public Suffix List创建正则表达式。

但表达式将超过100,000字节 - 目前有超过8,500个公共后缀,包括相当多的非ascii,它们可以用UTF-8和punycode编码,你的表达可能需要支持两种编码。