apache-spark - 处理大量不同类型（案例类）的数据集的最佳方法是什么 - Thinbug

处理大量不同类型（案例类）的数据集的最佳方法是什么

时间：2019-03-28 21:57:40

标签： apache-spark apache-spark-sql apache-spark-dataset

我有50多个不同的案例类别，每个案例都绑定到不同的实木复合地板来源

val cc1ds = spark.read("/hdfs/input1").as[cc1]
val cc2ds = spark.read("/hdfs/input1").as[cc2]
...
val cc50ds = spark.read("/hdfs/input1").as[cc50]

在需要处理它们时如何处理？我不能使用

val res:(dataset[cc1], ... dataset[cc50]) = (cc1ds, ... cc50ds)

我想避免定义太多的值

0 个答案:

没有答案