我是Spark的新手。
我已将CSV文件加载到Spark DataFrame中,例如OriginalDF
现在我想 1.从中筛选出一些列,并创建一个原始DF的新数据框 2.从提取的列中创建一个dataFrame
如何在Spark Scala中创建这两个数据框?
答案 0 :(得分:1)
使用select,可以选择所需的列。
val df2 = OriginalDF.select($"col1",$"col2",$"col3")
使用过滤器,您应该能够过滤行。
val df3 = OriginalDF.where($"col1" < 10)
另一种过滤数据的方法是使用where。 filter和where都是同义词,因此您可以互换使用它们。
val df3 = OriginalDF.filter($"col1" < 10)
注意选择和过滤器将返回一个新的数据帧作为结果。