Question

我正在努力完成以下任务：

For iterator i from 0 to n 
  Create data frames using i as one of the filter criteria in the select statement of sparksql 
  Create Rdd from dataframe 
Perform multiple operations on rdd

如何确保for循环有效？我正在尝试在群集上运行Scala代码。

Answer 1

首先，我建议在某些测试套件中本地运行它（如在scalatest中）。如果您不是单元/集成测试的类型，则可以在迭代时对数据框执行(0 until 5).foreach(i => { val df = [some data frame you use i in filtering] df.show() val df_rdd = df.rdd })。这将打印每个数据框的样本。

npm

使用Rdd转换的Spark for循环

1 个答案: