Question

如何在Spark 2.0和scala中迭代DataSet？我的问题是 - 我需要比较两行。我需要比较DateN和DateN-1并计算差异。

 Row1 - Date1 Num1 
 Row2 - Date2 Num2
 ..
 RowN- DateN NumN

Answer 1

不确定，您是否使用窗口功能解决了问题，因为您只想比较n＆amp; n-1行，我没有看到您要对数据进行分组的属性。对于您描述的要求，您可以按如下方式解决问题：

使用zipWithIndex为rdd添加索引。
为奇数索引行创建rdd。
为偶数索引行创建rdd。
现在你可以在两个rdds.1上应用你的逻辑。

以下是工作示例：

 val spark = SparkSession
                    .builder
                    .appName("Example")
                    .master("local[*]")
                    .getOrCreate()
                    import spark.implicits._
    val customers = spark.sparkContext.parallelize(List(("Alice", "2016-05-01", 50.00),
                                        ("Alice", "2016-05-03", 45.00),
                                        ("Alice", "2016-05-04", 55.00),
                                        ("Bob", "2016-05-01", 25.00),
                                        ("Bob", "2016-05-04", 29.00),
                                        ("Bob", "2016-05-06", 27.00)))

   val custIndexed = customers.zipWithIndex().collect()
   val custOdd = custIndexed.filter(record=>record._2%2!=0)
   val custEven = custIndexed.filter(record=>record._2%2==0)

Spark 2.0中使用DataSet的迭代器

1 个答案: