Lazy从PostgreSQL / Cassandra创建Dask DataFrame

时间:2016-10-06 23:33:06

标签: python postgresql dataframe cassandra dask

据我所知,Dask DataFrame是处理表格数据的正确方法。 我在PostgreSQL中有一个表,我知道将其加载到pandas.Dataframe

的方法

我知道,odo可用于将pandas.DataFrame转换为dask.dataframe。 但 这不是延迟操作:这样的转换强制将整个PostgeSQL表加载到内存中,这很糟糕。我更喜欢逐个读取项目或大块读取项目。怎么做?

  1. 与Cassandra类似的问题。但Cassandra就像分布式存储一样,可以针对分布式访问进行优化。但是如何用Dask做到这一点?

1 个答案:

答案 0 :(得分:0)

至于MongoDB,我创建了以下解决方案: https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包,然后将这些参数传递给loader。