应用错误收集

Lazy从PostgreSQL / Cassandra创建Dask DataFrame

时间：2016-10-06 23:33:06

标签： python postgresql dataframe cassandra dask

据我所知，Dask DataFrame是处理表格数据的正确方法。我在PostgreSQL中有一个表，我知道将其加载到pandas.Dataframe。

的方法

我知道，odo可用于将pandas.DataFrame转换为dask.dataframe。但这不是延迟操作：这样的转换强制将整个PostgeSQL表加载到内存中，这很糟糕。我更喜欢逐个读取项目或大块读取项目。怎么做？

与Cassandra类似的问题。但Cassandra就像分布式存储一样，可以针对分布式访问进行优化。但是如何用Dask做到这一点？

1 个答案:

答案 0 :(得分：0)

至于MongoDB，我创建了以下解决方案： https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包，然后将这些参数传递给loader。