Question

我正在使用Spark Dataset（Spark 1.6.1版本）。以下是我的代码

object App { 

val conf = new SparkConf()
.setMaster("local")
.setAppName("SparkETL")

val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")
val sqlContext = new SQLContext(sc);
import sqlContext.implicits._

}

override def readDataTable(tableName:String):DataFrame={
val dataFrame= App.sqlContext.read.jdbc(JDBC_URL, tableName, JDBC_PROP);
return dataFrame;
}


case class Student(stud_id , sname , saddress)
case class Student(classid, stud_id, name)


var tbl_student = JobSqlDAO.readDataTable("tbl_student").filter("stud_id = '" + studId + "'").as[Student].as("tbl_student")

var tbl_class_student = JobSqlDAO.readDataTable("tbl_class_student").as[StudentClass].as("tbl_class_student")


 var result = tbl_class_student.joinWith(tbl_student, $"tbl_student.stud_id" === $"tbl_class_student.stud_id").as("ff")

现在我想在多列上执行group by子句？怎么做？ result.groupBy(_._1._1.created_at)我可以这样做吗？如果是，那么我不能通过如何在多个列上看到结果？

Answer 1

如果我已正确理解您的要求，那么您最好的选择是在PairRDDFunctions课程中使用reduceByKey功能。

该函数的签名是def reduceByKey(func: (V, V) ⇒ V): RDD[(K, V)]，它只是意味着您使用一系列键/值对。

让我解释一下工作流程：

您可以检索要使用的套件（在您的代码中：result）
使用RDD map函数，您将结果集拆分为包含两个子元组的元组，其中包含组成键的字段和要聚合的字段（例如：result.map(row => ((row.key1, row.key2), (row.value1, row.value2))）
现在你有一个RDD [（K，V）]，其中类型K是关键字段元组的类型，V是值字段类型元组
您可以直接使用reduceByKey传递类型(V,V) => V的聚合值的函数（例如：(agg: (Int, Int), val: (Int, Int)) => (agg._1 + val._1, agg._2 + val._2)）

请注意：

您必须从聚合函数
您必须导入org.apache.spark.SparkContext._才能自动使用PairRDDFunctions实用程序功能
同样的推理groupBy，您必须从起始RDD映射到一对RDD[K,V]，但您没有聚合函数，因为您只是将值存储在seq进一步计算
如果您需要聚合的起始值（例如：0表示计数），请改用foldByKey函数

如何在spark数据集

1 个答案: