如何使用pyspark

时间:2017-09-14 16:02:09

标签: pyspark apache-spark-mllib evolutionary-algorithm deap

我想在spark上使用pyspark运行像GA,PSO这样的进化算法。如何使用Deap python库使用MLLib来执行此操作。是否有任何其他库可用于执行相同的任务。

2 个答案:

答案 0 :(得分:1)

查看my answer如何在Spark中使用DEAP,看看它是否适合您。

以下是如何使用Spark自定义DEAP toolboxreplace the map function的示例。

from pyspark import SparkContext

sc = SparkContext(appName="DEAP")

def sparkMap(algorithm, population):
    return sc.parallelize(population).map(algorithm)

toolbox.register("map", sparkMap)

答案 1 :(得分:0)

https://github.com/DEAP/deap/issues/268中,他们展示了如何在DEAP软件包中执行此操作。但是,这是一个问题。但他们提到有一个拉取请求(https://github.com/DEAP/deap/pull/76),似乎固定的代码/分支来自派生的仓库。
听起来,如果您使用该代码重建软件包,它将解决此问题。

我发现的另一个尚未尝试的资源是https://apacheignite.readme.io/docs/genetic-algorithms。 也遇到了这个https://github.com/paduraru2009/genetic-algorithm-with-Spark-for-test-generation