使用Spark 1.6.0,cdh 5.7.0
我有一个csv文件,其中包含要处理的表的列表,我想在处理中实现并行性。 截至目前,我正在使用collect来处理每个,尝试使用scala中的未来选项,甚至试过这个https://blog.knoldus.com/2015/10/21/demystifying-asynchronous-actions-in-spark/
val allTables = sc.textFile("hdfs://.......")
allTables.collect().foreach(
table => {
val processing = sqlContext.sql(s"select * from ${table} ")
processing.saveAsParquetFile("hdfs://.......")
}
)
答案 0 :(得分:0)
也使用scala集合并行功能。
allTables.collect().par.foreach(table => ..)