标签: database apache-spark bigdata
最近我开始学习Spark来加速处理。在我的情况下,Spark应用程序的输入RDD不包含批处理所需的所有数据。因此,我必须在每个工作线程中执行一些SQL查询。
可以预处理所有输入数据,但这需要很长时间。
我知道以下问题可能也是如此"一般",但任何经验都会有所帮助。
答案 0 :(得分:0)
如果没有具体的用例,很难回答你的一些问题。但以下通用答案可能会有所帮助
mapPartitions