使用Rdd转换的Spark for循环

时间:2016-04-06 04:06:19

标签: scala apache-spark

我正在努力完成以下任务:

For iterator i from 0 to n 
  Create data frames using i as one of the filter criteria in the select statement of sparksql 
  Create Rdd from dataframe 
Perform multiple operations on rdd 

如何确保for循环有效?我正在尝试在群集上运行Scala代码。

1 个答案:

答案 0 :(得分:1)

首先,我建议在某些测试套件中本地运行它(如在scalatest中)。如果您不是单元/集成测试的类型,则可以在迭代时对数据框执行(0 until 5).foreach(i => { val df = [some data frame you use i in filtering] df.show() val df_rdd = df.rdd }) 。这将打印每个数据框的样本。

npm