如何使用spark

时间:2017-06-29 11:00:14

标签: apache-spark hive apache-spark-sql hiveql

为什么没有比较刺痛?

我的输入为 -

+-------+
|      y|
+-------+
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
+-------+

我正在查询 -

sqlContext.sql("select count(y) from dummy where y='yes'").show()

输出是 -

+---+
|_c0|
+---+
|  0|
+---+

y在DDL中声明为字符串类型

1 个答案:

答案 0 :(得分:1)

你应该试试这个:

sqlContext.sql("select count(y) from dummy where y='\"\"yes\""'").show()

请注意,您的数据""yes""不仅仅是yes

您仍然需要清理数据:)

或者这样做:

sqlContext.sql("select count(y) from dummy where y like '%yes%'").show()