Question

使用Spark 1.6.0，cdh 5.7.0

我有一个csv文件，其中包含要处理的表的列表，我想在处理中实现并行性。截至目前，我正在使用collect来处理每个，尝试使用scala中的未来选项，甚至试过这个https://blog.knoldus.com/2015/10/21/demystifying-asynchronous-actions-in-spark/

 val allTables = sc.textFile("hdfs://.......")
    allTables.collect().foreach(
    table => {
    val processing = sqlContext.sql(s"select * from ${table} ")
    processing.saveAsParquetFile("hdfs://.......")
             } 
                               )

Answer 1

也使用scala集合并行功能。

allTables.collect().par.foreach(table => ..)

当需要处理表的列表时，spark sql中的并行性

1 个答案: