我正在尝试从PrestoDB中的引荐来源网址列表中提取域名。使用url_extract_host
函数我有一个如下所示的列表。我一直试图从字符串中获取域名。
Presto使用java样式的模式语法。
我在下面有一个字符串列表,所有字符串都应该返回google
google.com
google.co.il
blog.google.com
blog.google.co.il
感谢任何帮助表示赞赏
答案 0 :(得分:0)
我认为您可以使用Mozilla维护的Public Suffix List创建正则表达式。
但表达式将超过100,000字节 - 目前有超过8,500个公共后缀,包括相当多的非ascii,它们可以用UTF-8和punycode编码,你的表达可能需要支持两种编码。