在Scala中使用带有Spark的Regex过滤DataFrame

时间:2015-11-27 21:24:14

标签: regex scala apache-spark spark-dataframe

我想过滤掉Spark python3.4 -m pip install numpy -v 中具有看似真实的电子邮件列的行,这是我尝试的内容:

DataFrame

但这不起作用。什么是正确的方法?

1 个答案:

答案 0 :(得分:27)

要扩展@ TomTom101的评论,您要查找的代码是:

df.filter($"Email" rlike ".*@.*")

match不起作用的主要原因是因为DataFrame有两个filter functions,它们带有字符串或列。这与RDD不同,其中一个filter将函数从T转换为布尔值。