Spark - 使用不起作用的列名在Dataframe上应用过滤器/映射

时间:2017-10-23 22:30:18

标签: apache-spark dataset spark-dataframe

对不起,如果这是重复的,但是,指出的解决方案对我不起作用。我很可能在这里缺少一些基本的东西。我有一个如下的数据帧:

requests
 | project client_Type, client_Browser, client_Model, client_OS
 | limit 100

我正在尝试过滤一些"行"感兴趣的是基于一个名为" state" (类型为String)通过执行此操作(在Scala中):

inputDF: org.apache.spark.sql.DataFrame = [ts: string, id: string ... 20 more fields]

然而,这给了我一个错误:

inputDF.filter(inputDF("state") == "BALANCED").show()

有人可以指出这里有什么不对吗?我跟着几个例子,包括https://rklicksolutions.wordpress.com/2016/03/03/tutorial-spark-1-6-sql-and-dataframe-operations/中的一个例子,但不能弄清楚什么是错的。

1 个答案:

答案 0 :(得分:0)

看起来我需要使用===而不是==

inputDF.filter(inputDF("state") === "BALANCED").show()

正在做我想做的事。