将Spark中的现有行添加到另一个DataSet(Spark Java 2.3.1)

时间:2018-07-11 22:56:19

标签: java apache-spark apache-spark-sql

我必须有2个数据集:

  • 数据集A:原始
  • 数据集B:数据集A的外推

这是A与B之间的双射关系

我是否可以将2嵌套到一个数据集中,这样当将其转换为json对象时,只有一个内部对象代表数据集B中的该元素行。

最终产品应该是

{  
Dataset-A  
  { 
    Dataset-B-Object
  }
}

1 个答案:

答案 0 :(得分:1)

在地狱中,您无法做到这一点。我们谈论的是Spark,而不是您要从数据集中创建的一些Web API。

您可以将两个数据集合并为一个数据集

datasetA.union(datasetB)

结果将是一个数据集连接在一起。