动态地将spark数据帧转换为元组(String,_ <:Product)

时间:2019-11-09 21:02:38

标签: scala apache-spark

在使用Spark时遇到了一个特殊的问题,我不太确定会发生什么,如果有人可以提供帮助,那就太好了。我的问题是有一个类似于以下功能的功能,即将数据帧转换为某种类型的数据集,这是在运行时确定的。我需要使用数据集,因为基础案例类具有一些我想使用的注释。

 def ret(spark: SparkSession, dss: DataFrame, typ: String): Dataset[_ <: Product] = {
    import spark.implicits._
    typ match {
      case "t1" => dss.as[T1]
      case "t2" => dss.as[T2]
    }

  }

我可以使用以下函数调用val ds = ret(spark,dataframe,"t1")

将数据帧投射到数据集

此功能一切正常,现在我想扩展现有功能以返回一个Dataset[(String,_<:Product)],所以我要像这样修改我的功能,

 def ret(spark: SparkSession, dss: DataFrame,typ: String):Dataset[(String,_ <: Product)] = {
    import spark.implicits._
    typ match {
      case "t1" => dss.as[(String,T1)]
      case "t2" => dss.as[(String,T2)]
    }
  }

这给了我一个编译错误,说类型(String,T1)与期望的类型(String,_<:Product)不匹配。这里到底发生了什么?有什么想法我可以解决这个问题吗?任何提示将不胜感激!

非常感谢!!

更新:上限<:产品是指scala。产品和T1,T2可以是任何案例类,例如

case class T1(name: String, age: Int)

case class T2(name: String, max: Int, min: Int)

但这实际上可以是任何东西

1 个答案:

答案 0 :(得分:3)

Dataset[(String, T1)]Dataset[(String, T2)]的常见父类型不是Dataset[(String,_ <: Product)],而是更复杂的existential type

Dataset[(String, T)] forSome { type T <: Product }

Dataset[(String,_ <: Product)]确实也是一种存在类型,但与众不同。这是

的简写
Dataset[(String, T) forSome { type T <: Product }]

请注意,要在没有警告的情况下使用Dataset[(String, T)] forSome { type T <: Product },您需要添加import scala.language.existentials(这些类型将为removed in Scala 3)。

编辑:我认为我检查的内容就足够了,但是显然这里的类型推断失败了,我真的不明白为什么。

def ret(spark: SparkSession, dss: DataFrame, typ: String): Dataset[(String, T)] forSome { type T <: Product } = {
  import spark.implicits._
  typ match {
    case "t1" => dss.as[(String,T1)]: (Dataset[(String, T)] forSome { type T <: Product })
    case "t2" => dss.as[(String,T2)]: (Dataset[(String, T)] forSome { type T <: Product })
  }
}

编译。您可以提取类型别名以避免重复:

type DatasetStringT = Dataset[(String, T)] forSome { type T <: Product }

def ret(spark: SparkSession, dss: DataFrame, typ: String): DatasetStringT = {
  import spark.implicits._
  typ match {
    case "t1" => dss.as[(String,T1)]: DatasetStringT 
    case "t2" => dss.as[(String,T2)]: DatasetStringT 
  }
}