需要有关使用Spark Filter的帮助

时间:2018-01-08 06:01:34

标签: apache-spark-sql spark-dataframe

我是Apache spark的新手,需要帮助在数据帧上形成SQL查询或火花过滤器。

以下是我的数据形成方式,即我有大量用户包含以下数据。

  

{ "User1":"Joey", "Department": ["History","Maths","Geography"] }

我有多个搜索条件,如下面的搜索条件,其中我需要根据用户定义的运算符搜索数据数据,例如可能是和/或。

{
 "SearchCondition":"1",
 "Operator":"and",
 "Department": ["Maths","Geography"]
}

可以指出我如何在火花中实现这一目标吗?

谢谢, -Jack

1 个答案:

答案 0 :(得分:1)

我假设您使用Scala并且您已在DataFrame中解析数据

val df = spark.read.json(pathToFile)

我会使用DataSet,因为它们提供了类型安全性

case class User(department: Array[String], user1: String)
val ds = df.as[User]
def pred(user: User): Boolean = Set("Geography","Maths")subsetOf(user.department.toSet)
ds.filter(pred _)

您可以详细了解DataSet [{3}}和here

如果您更喜欢使用Dataframes,可以使用用户定义的函数

import org.apache.spark.sql.functions._
val pred = udf((arr: Seq[String]) => Set("Geography","Maths")subsetOf(arr.toSet))
df.filter(pred($"Department"))

在同一here,你可以找到一个火花内置功能。你可以做到

df.filter(array_contains($"Department", "Maths")).filter(array_contains($"Department", "Geography"))

但有人可能会说这不是那么有效,优化者也无法改善它。

请注意,对于每个搜索条件,您需要不同的谓词。