pyspark - 使用Spark并行处理非常大的图像 - Thinbug

使用Spark并行处理非常大的图像

时间：2019-07-07 16:40:41

标签： pyspark apache-spark-sql

我必须对超大图像（每个图像超过100 GB）进行一些处理（模式识别）。我可以将它们切成薄片以放入内存。目的是尽可能快地处理图像。我认为我应该使用spark，因为它具有快速的并行处理能力。您能给我一些提示如何设置群集吗？我应该优先使用pyspark而不是带有R的Spark吗？

我已经建立了一个pyspark集群，作为该领域的初学者，我使用了sc.parallelize（）方法。

0 个答案:

没有答案