尝试将部分Redshift查询转换为SparkSQL或SQL和UDF的一些组合:
REGEXP_SUBSTR(referrer, '[^/]+\\.[^/:]+') as referrer_domain,
尝试使用regexp_extract(referrer, '[^/]+\\.[^/:]+', 1)
,但这似乎没有相同的方式,并且返回结果不一致。
任何指示赞赏!
答案 0 :(得分:0)
你应该能够在spark sql中使用regexp_extract,就像这样 -
regexp_extract(columnName, '(YourRegex)', 1) as aliasName
注意正则表达式周围的()捕获组。希望它有所帮助!