Spark筛选出列并使用剩余的列创建dataFrame并使用已过滤的列创建dataFrame

时间:2019-01-24 05:46:58

标签: scala apache-spark apache-spark-sql

我是Spark的新手。

我已将CSV文件加载到Spark DataFrame中,例如OriginalDF

现在我想 1.从中筛选出一些列,并创建一个原始DF的新数据框 2.从提取的列中创建一个dataFrame

如何在Spark Scala中创建这两个数据框?

1 个答案:

答案 0 :(得分:1)

使用select,可以选择所需的列。

val df2 = OriginalDF.select($"col1",$"col2",$"col3")

使用过滤器,您应该能够过滤行。

val df3 = OriginalDF.where($"col1" < 10)

另一种过滤数据的方法是使用where。 filter和where都是同义词,因此您可以互换使用它们。

val df3 = OriginalDF.filter($"col1" < 10)

注意选择和过滤器将返回一个新的数据帧作为结果。