我们有一个Spark集群,旨在对Python中各种财务数据集进行分析,范围可达数百TB。它适合那些熟悉Spark的人,但是最近我们有许多数据科学家对Pandas更加熟悉,他们要求使用Pandas代替Spark。 Spark的主要优点是它是为分布式处理而设计的,并且可以处理更大的数据集,因此我们一直在寻求建立Dask集群。
但是,这让我开始思考:是否有一些概念上的原因,使得达克斯脚本无法通过实现兼容层将熊猫原语转换成Spark原语而在Spark集群上运行,就像Dask的工作方式一样?还是它们在某种程度上根本不同?
答案 0 :(得分:1)
大多数Spark集群使用Apache Yarn在许多节点上部署Spark。这些集群还使用Yarn部署其他服务,例如Hive,Flink,Hadoop MapReduce等。任何可以与Yarn通讯的应用程序都可以在本地群集上运行; Spark就是这样一种应用。
您现在可以使用Dask Dataframes项目在您的Spark / Yarn集群上运行Dask Yarn(今天是最接近并行Pandas数据帧的东西)。
答案 1 :(得分:0)
更新:看来您现在可以使用Databricks的新Koalas项目执行此操作: https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html