标签: pyspark apache-spark-sql
我必须对超大图像(每个图像超过100 GB)进行一些处理(模式识别)。我可以将它们切成薄片以放入内存。目的是尽可能快地处理图像。我认为我应该使用spark,因为它具有快速的并行处理能力。您能给我一些提示如何设置群集吗?我应该优先使用pyspark而不是带有R的Spark吗?
我已经建立了一个pyspark集群,作为该领域的初学者,我使用了sc.parallelize()方法。