Redshift REGEXP_SUBSTR函数的Spark替代品

时间:2017-09-27 01:23:08

标签: apache-spark apache-spark-sql amazon-redshift pyspark-sql

尝试将部分Redshift查询转换为SparkSQL或SQL和UDF的一些组合:

REGEXP_SUBSTR(referrer, '[^/]+\\.[^/:]+') as referrer_domain,

尝试使用regexp_extract(referrer, '[^/]+\\.[^/:]+', 1),但这似乎没有相同的方式,并且返回结果不一致。

任何指示赞赏!

1 个答案:

答案 0 :(得分:0)

你应该能够在spark sql中使用regexp_extract,就像这样 -

regexp_extract(columnName, '(YourRegex)', 1) as aliasName

注意正则表达式周围的()捕获组。希望它有所帮助!