我正在努力完成以下任务:
For iterator i from 0 to n
Create data frames using i as one of the filter criteria in the select statement of sparksql
Create Rdd from dataframe
Perform multiple operations on rdd
如何确保for循环有效?我正在尝试在群集上运行Scala代码。
答案 0 :(得分:1)
首先,我建议在某些测试套件中本地运行它(如在scalatest中)。如果您不是单元/集成测试的类型,则可以在迭代时对数据框执行(0 until 5).foreach(i => {
val df = [some data frame you use i in filtering]
df.show()
val df_rdd = df.rdd
})
。这将打印每个数据框的样本。
npm