Apache Spark:如何将带有正则表达式的数据框列转换为另一个数据框?

时间:2015-08-20 15:09:53

标签: regex scala apache-spark

我有几列的Spark数据框1:(user_uuid,url,date_visit)

我想将此DF1转换为数据框2,格式为:(user_uuid,domain,date_visit)

我想要使用的是正则表达式来检测域并将其应用于DF1 val regexpr = """(?i)^((https?):\/\/)?((www|www1)\.)?([\w-\.]+)""".r

请问你能帮我编写代码来转换Scala中的数据框吗?我是Spark和Scala的新手,语法很难。谢谢!

1 个答案:

答案 0 :(得分:13)

Spark> = 1.5

您可以使用regexp_extract功能:

import org.apache.spark.sql.functions.regexp_extract

val patter: String = ??? 
val groupIdx: Int = ???

df.withColumn("domain", regexp_extract(url, pattern, groupIdx))

Spark< 1.5.0

定义UDF

val pattern: scala.util.matching.Regex = ???

def getFirst(pattern: scala.util.matching.Regex) = udf(
  (url: String) => pattern.findFirstIn(url) match { 
    case Some(domain) => domain
    case None => "unknown"
  }
)

使用已定义的UDF:

df.select(
  $"user_uuid",
  getFirst(pattern)($"url").alias("domain"),
  $"date_visit"
)

或注册临时表:

df.registerTempTable("df")

sqlContext.sql(s"""
  SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")

pattern替换为有效的Java正则表达式,将group_id替换为该组的索引。