Question

我正在使用带有Scala的Apache Spark进行大数据编程。我想从一个目录中的多个数据集中创建一个数据框。所有数据集均为文本/纯格式，具有相同的列名和数据类型。我的问题是如何使用Scala从这些多个数据集中创建一个数据框？

Answer 1

您可以尝试使用union功能。您可以读取2个不同df中的数据，并使用union函数将其组合在一起。

val df = firstDF.union(secondDF)