我想过滤掉Spark python3.4 -m pip install numpy -v
中具有看似真实的电子邮件列的行,这是我尝试的内容:
DataFrame
但这不起作用。什么是正确的方法?
答案 0 :(得分:27)
要扩展@ TomTom101的评论,您要查找的代码是:
df.filter($"Email" rlike ".*@.*")
match
不起作用的主要原因是因为DataFrame
有两个filter functions,它们带有字符串或列。这与RDD
不同,其中一个filter将函数从T
转换为布尔值。