使用Spark并行处理非常大的图像

时间:2019-07-07 16:40:41

标签: pyspark apache-spark-sql

我必须对超大图像(每个图像超过100 GB)进行一些处理(模式识别)。我可以将它们切成薄片以放入内存。目的是尽可能快地处理图像。我认为我应该使用spark,因为它具有快速的并行处理能力。您能给我一些提示如何设置群集吗?我应该优先使用pyspark而不是带有R的Spark吗?

我已经建立了一个pyspark集群,作为该领域的初学者,我使用了sc.parallelize()方法。

0 个答案:

没有答案