如何在spark数据集

时间:2016-06-14 11:14:43

标签: apache-spark dataset apache-spark-dataset

我正在使用Spark Dataset(Spark 1.6.1版本)。 以下是我的代码

object App { 

val conf = new SparkConf()
.setMaster("local")
.setAppName("SparkETL")

val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")
val sqlContext = new SQLContext(sc);
import sqlContext.implicits._

}

override def readDataTable(tableName:String):DataFrame={
val dataFrame= App.sqlContext.read.jdbc(JDBC_URL, tableName, JDBC_PROP);
return dataFrame;
}


case class Student(stud_id , sname , saddress)
case class Student(classid, stud_id, name)


var tbl_student = JobSqlDAO.readDataTable("tbl_student").filter("stud_id = '" + studId + "'").as[Student].as("tbl_student")

var tbl_class_student = JobSqlDAO.readDataTable("tbl_class_student").as[StudentClass].as("tbl_class_student")


 var result = tbl_class_student.joinWith(tbl_student, $"tbl_student.stud_id" === $"tbl_class_student.stud_id").as("ff")

现在我想在多列上执行group by子句?  怎么做?   result.groupBy(_._1._1.created_at)我可以这样做吗? 如果是,那么我不能通过如何在多个列上看到结果?

1 个答案:

答案 0 :(得分:0)

如果我已正确理解您的要求,那么您最好的选择是在PairRDDFunctions课程中使用reduceByKey功能。

该函数的签名是def reduceByKey(func: (V, V) ⇒ V): RDD[(K, V)],它只是意味着您使用一系列键/值对。

让我解释一下工作流程:

  1. 您可以检索要使用的套件(在您的代码中:result
  2. 使用RDD map函数,您将结果集拆分为包含两个子元组的元组,其中包含组成键的字段和要聚合的字段(例如:result.map(row => ((row.key1, row.key2), (row.value1, row.value2))
  3. 现在你有一个RDD [(K,V)],其中类型K是关键字段元组的类型,V是值字段类型元组
  4. 您可以直接使用reduceByKey传递类型(V,V) => V的聚合值的函数(例如:(agg: (Int, Int), val: (Int, Int)) => (agg._1 + val._1, agg._2 + val._2)
  5. 请注意:

    • 您必须从聚合函数
    • 返回相同的值类型
    • 您必须导入org.apache.spark.SparkContext._才能自动使用PairRDDFunctions实用程序功能
    • 同样的推理groupBy,您必须从起始RDD映射到一对RDD[K,V],但您没有聚合函数,因为您只是将值存储在seq进一步计算
    • 如果您需要聚合的起始值(例如:0表示计数),请改用foldByKey函数