在Spark集群上使用常规python代码

时间:2018-11-29 15:58:39

标签: python apache-spark distributed-computing

我可以在Spark集群中使用常规ML库(例如Tensorflow或sci-kit learning)运行普通的python代码吗?如果是,spark可以在整个集群中分布我的数据和计算吗?如果没有,为什么?

1 个答案:

答案 0 :(得分:1)

Spark使用RDD(弹性分布式数据集)在工人或奴隶之间分配工作,我认为您可以在不大幅修改代码以激发规范的情况下使用python中的现有代码,对于tensorflow,有许多选项可以将计算分布到多个gpus。