应用错误收集

熊猫可以在Spark上运行吗？

时间：2018-09-11 10:49:14

标签： pandas apache-spark dask

我们有一个Spark集群，旨在对Python中各种财务数据集进行分析，范围可达数百TB。它适合那些熟悉Spark的人，但是最近我们有许多数据科学家对Pandas更加熟悉，他们要求使用Pandas代替Spark。 Spark的主要优点是它是为分布式处理而设计的，并且可以处理更大的数据集，因此我们一直在寻求建立Dask集群。

但是，这让我开始思考：是否有一些概念上的原因，使得达克斯脚本无法通过实现兼容层将熊猫原语转换成Spark原语而在Spark集群上运行，就像Dask的工作方式一样？还是它们在某种程度上根本不同？

2 个答案:

答案 0 :(得分：1)

大多数Spark集群使用Apache Yarn在许多节点上部署Spark。这些集群还使用Yarn部署其他服务，例如Hive，Flink，Hadoop MapReduce等。任何可以与Yarn通讯的应用程序都可以在本地群集上运行； Spark就是这样一种应用。

您现在可以使用Dask Dataframes项目在您的Spark / Yarn集群上运行Dask Yarn（今天是最接近并行Pandas数据帧的东西）。

答案 1 :(得分：0)

更新：看来您现在可以使用Databricks的新Koalas项目执行此操作： https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html