从多个数据集创建一个数据框

时间:2019-02-19 15:53:14

标签: apache-spark

我正在使用带有Scala的Apache Spark进行大数据编程。我想从一个目录中的多个数据集中创建一个数据框。所有数据集均为文本/纯格式,具有相同的列名和数据类型。我的问题是如何使用Scala从这些多个数据集中创建一个数据框?

1 个答案:

答案 0 :(得分:0)

您可以尝试使用union功能。 您可以读取2个不同df中的数据,并使用union函数将其组合在一起。

val df = firstDF.union(secondDF)