Question

尝试将部分Redshift查询转换为SparkSQL或SQL和UDF的一些组合：

REGEXP_SUBSTR(referrer, '[^/]+\\.[^/:]+') as referrer_domain,

尝试使用regexp_extract(referrer, '[^/]+\\.[^/:]+', 1)，但这似乎没有相同的方式，并且返回结果不一致。

任何指示赞赏！

Answer 1

你应该能够在spark sql中使用regexp_extract，就像这样 -

regexp_extract(columnName, '(YourRegex)', 1) as aliasName

注意正则表达式周围的（）捕获组。希望它有所帮助！