处理大量不同类型(案例类)的数据集的最佳方法是什么

时间:2019-03-28 21:57:40

标签: apache-spark apache-spark-sql apache-spark-dataset

我有50多个不同的案例类别,每个案例都绑定到不同的实木复合地板来源

val cc1ds = spark.read("/hdfs/input1").as[cc1]
val cc2ds = spark.read("/hdfs/input1").as[cc2]
...
val cc50ds = spark.read("/hdfs/input1").as[cc50]

在需要处理它们时如何处理? 我不能使用

val res:(dataset[cc1], ... dataset[cc50]) = (cc1ds, ... cc50ds)

我想避免定义太多的值

0 个答案:

没有答案