我正在尝试在DataFrame上应用过滤条件的否定,如下所示。
!(`Ship Mode` LIKE '%Truck%')
在
下面抛出异常Exception in thread "main" java.lang.RuntimeException: [1.3] failure: identifier expected
(!(`Ship Mode` LIKE '%Truck%'))
^
at scala.sys.package$.error(package.scala:27)
at org.apache.spark.sql.catalyst.SqlParser.parseExpression(SqlParser.scala:47)
at org.apache.spark.sql.DataFrame.filter(DataFrame.scala:748)
at Main.main(Main.java:73)
在MySQL中,相同类型的负过滤条件正常工作。请在下面找到
mysql> select count(*) from audit_log where !(operation like '%Log%' or operation like '%Proj%');
+----------+
| count(*) |
+----------+
| 129 |
+----------+
1 row in set (0.05 sec)
任何人都可以告诉我,如果计划在将来的版本中修复Spark DataFrames,或者我应该提出JIRA。
答案 0 :(得分:5)
您似乎在使用不支持SQLContext
的简单!
:
import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val data = Seq(("a", 1, 3), ("b", 2, 6), ("c", -1, 2))
val df = sqlContext.createDataFrame(data).toDF("x1", "x2", "x3")
df.registerTempTable("df")
sqlContext.sql("SELECT * FROM df WHERE ! (x2 > 2 OR x3 < 4)").show
// java.lang.RuntimeException: [1.25] failure: identifier expected
//
// SELECT * FROM df WHERE ! (x2 > 2 OR x3 < 4)
// ^
可以使用NOT
轻松替换:
sqlContext.sql("SELECT * FROM df WHERE NOT (x2 > 2 OR x3 < 4)").show
// +---+---+---+
// | x1| x2| x3|
// +---+---+---+
// | b| 2| 6|
// +---+---+---+
如果您仍想使用!
,则应使用HiveContext
:
import org.apache.spark.sql.hive.HiveContext
val hiveContext = new HiveContext(sc)
val df1 = hiveContext.createDataFrame(data).toDF("x1", "x2", "x3")
df1.registerTempTable("df")
hiveContext.sql("SELECT * FROM df WHERE ! (x2 > 2 OR x3 < 4)").show
// +---+---+---+
// | x1| x2| x3|
// +---+---+---+
// | b| 2| 6|
// +---+---+---+