如何使用Spark比较两个数据集的架构?

时间:2019-06-18 14:18:00

标签: scala apache-spark apache-spark-dataset

我有两个具有以下架构的数据集(dsFile和dsTable):

dsFile:

dsFile
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)

dsTable:

dsTable
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)
  |-- D: string (nullable = true)
  |-- E: string (nullable = true)

我想知道是否有办法找到这两个数据集之间的列差异?并建立具有差异的新dsFile数据集:

dsFileNew:

dsFileNew
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)
  |-- D: string (nullable = true) // column of dsTable
  |-- E: string (nullable = true) // column of dsTable

0 个答案:

没有答案