我目前正在使用Pandas和Spark进行数据分析。我发现Dask提供了并行化的NumPy数组和Pandas DataFrame。
Pandas在Python中进行数据分析非常简单直观。但由于系统内存有限,我发现难以在Pandas中处理多个更大的数据帧。
简单回答:
Apache Spark是一个包含分布式的全包框架 计算,SQL查询,机器学习等等 JVM通常与其他大数据框架共同部署 Hadoop的。 ...通常Dask比Spark更小,重量更轻。
我从http://dask.pydata.org/en/latest/spark.html
了解以下详细信息我从以下链接了解有关Dask的更多信息 https://www.continuum.io/blog/developer-blog/high-performance-hadoop-anaconda-and-dask-your-cluster
http://dask.pydata.org/en/latest/dataframe-overview.html
限制
Dask.DataFrame没有实现整个Pandas接口。期望这样的用户会感到失望。但是,dask.dataframe有以下限制:
感谢Dask开发人员。这似乎是非常有前途的技术。
总的来说,我可以理解Dask比spark更容易使用。 Dask与Pandas一样灵活,具有更多的功能,可以与更多的CPU并行计算。
我理解有关Dask的所有上述事实。
那么,使用Dask大致可以处理多少数据量(以TB为单位)?
答案 0 :(得分:21)
您可能需要阅读Dask comparison to Apache Spark
Apache Spark是一个包含分布式的全包框架 计算,SQL查询,机器学习等等 JVM通常与其他大数据框架共同部署 Hadoop的。它最初针对批量数据摄取和查询进行了优化 在数据工程和业务分析中很常见但从那以后 扩大了。 Spark通常用于中小型 群集,但也可以在一台机器上运行良好。
Dask是一个与Numeric结合的并行编程库 Python生态系统提供并行数组,数据帧,机器 学习和自定义算法。它基于Python和 基础C / Fortran堆栈。 Dask最初是为了设计的 补充其他具有并行性的库,特别是对于数字 计算和高级分析,但后来扩大了。达斯是 通常在一台机器上使用,但也可以在一台机器上运行良好 分布式集群。
通常,Dask比Spark更小,重量更轻。这意味着 它具有较少的功能,而是打算用于 与其他库结合使用,尤其是数字库中的库 Python生态系统。