当需要处理表的列表时,spark sql中的并行性

时间:2018-02-26 21:37:12

标签: scala apache-spark apache-spark-sql spark-dataframe

使用Spark 1.6.0,cdh 5.7.0

我有一个csv文件,其中包含要处理的表的列表,我想在处理中实现并行性。 截至目前,我正在使用collect来处理每个,尝试使用scala中的未来选项,甚至试过这个https://blog.knoldus.com/2015/10/21/demystifying-asynchronous-actions-in-spark/

 val allTables = sc.textFile("hdfs://.......")
    allTables.collect().foreach(
    table => {
    val processing = sqlContext.sql(s"select * from ${table} ")
    processing.saveAsParquetFile("hdfs://.......")
             } 
                               )

1 个答案:

答案 0 :(得分:0)

也使用scala集合并行功能。

allTables.collect().par.foreach(table => ..)