了解Spark SQL的一些基础知识

时间:2017-01-06 21:13:18

标签: scala apache-spark apache-spark-sql apache-spark-dataset

我跟随http://spark.apache.org/docs/latest/sql-programming-guide.html

输入后:

val df = spark.read.json("examples/src/main/resources/people.json")

// Displays the content of the DataFrame to stdout
df.show()
// +----+-------+
// | age|   name|
// +----+-------+
// |null|Michael|
// |  30|   Andy|
// |  19| Justin|
// +----+-------+

我有一些问题,我没有看到答案。

首先,$ -notation是什么?     如在

 df.select($"name", $"age" + 1).show()

其次,我可以从第2行获取数据(而且我不知道第二行中的数据是什么)。

第三,你如何用spark sql读取彩色图像?

第四,我还不确定spark中的数据集和数据帧之间有什么区别。变量df是一个数据帧,所以我可以更改" Michael"到整数5?我可以在数据集中执行此操作吗?

2 个答案:

答案 0 :(得分:3)

  1. $不是注释。它是a method callnew ColumnName("name")的快捷方式)。
  2. 你不会。 Spark SQL没有行索引的概念。
  3. 你不会。您可以使用具有特定输入格式的低级RDD API(例如来自HIPI项目的格式),然后进行转换。
  4. Difference between DataSet API and DataFrame

答案 1 :(得分:1)

1)对于问题1,$符号用作选择列并在其上应用函数的快捷方式。例如:

df.select($"id".isNull).show

可以用其他方式写成

df.select(col("id").isNull)

2)Spark没有索引,但是对于原型设计,您可以使用df.take(10)(i)i可以是您想要的元素。注意:每次基础数据分区时,行为可能会有所不同。