访问Spark.SQL

时间:2017-02-28 23:06:46

标签: scala apache-spark apache-spark-sql

我是Spark的新手。按照下面的例子,我发现下面的命令给出了错误。运行Spark-SQL命令的最佳方法是什么,一般在Spark中进行编码?

scala> // Use SQL to create another DataFrame containing the account
summary records
scala> val acSummary = spark.sql("SELECT accNo, sum(tranAmount) as TransTotal FROM trans GROUP BY accNo")
<console>:37: error: not found: value spark

我尝试导入导入org.apache.spark.SparkContext或使用sc对象,但没有运气。

3 个答案:

答案 0 :(得分:1)

假设你在spark-shell中,那么首先得到一个sql上下文:

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

然后你可以这样做:

val acSummary = sqlContext.sql("SELECT accNo, sum(tranAmount) as TransTotal FROM trans GROUP BY accNo")

答案 1 :(得分:0)

因此spark中可用的值spark-shell实际上是SparkSessionhttps://spark.apache.org/docs/2.0.2/api/scala/index.html#org.apache.spark.sql.SparkSession)的实例

val spark = SparkSession.builder().getOrCreate()

会给你一个。

答案 2 :(得分:0)

您使用的是哪个版本?它似乎你在shell中,这应该工作,但只在Spark 2+ - 否则你必须使用sqlContext.sql