Question

我想过滤掉Spark python3.4 -m pip install numpy -v中具有看似真实的电子邮件列的行，这是我尝试的内容：

DataFrame

但这不起作用。什么是正确的方法？

Answer 1

要扩展@ TomTom101的评论，您要查找的代码是：

df.filter($"Email" rlike ".*@.*")

match不起作用的主要原因是因为DataFrame有两个filter functions，它们带有字符串或列。这与RDD不同，其中一个filter将函数从T转换为布尔值。