如何在Apache Spark中获取A列中数据名人堂B列以外的元素的列表?

时间:2019-07-11 06:27:13

标签: scala apache-spark dataframe

我有2个数据名人,X,Y。 X具有列A,Y具有列B。A,B具有字符串类型。 如何获取A列中不在B列中的元素的列表?

或者我有一个字符串S,我想检查S是否是A列中的元素。如何检查??

请帮助我!! :( 我按Scala编码!

1 个答案:

答案 0 :(得分:0)

关于第一个问题(过滤DataFrame X中不在DataFrame Y中的所有元素):

val X = Seq("1", "2", "3", "4", "5").toDF("A")
val Y = Seq("4", "5", "6", "7", "8").toDF("B")

X.except(Y).show()

输出:

+---+
|  A|
+---+
|  3|
|  1|
|  2|
+---+

第二个问题(检查字符串S是否存在于DataFrame X的A列中)

val lookFor = "3"
assert(X.where(s"A == '$lookFor'").count() > 0)

希望它会有所帮助:-)