据我所知,Dask DataFrame是处理表格数据的正确方法。
我在PostgreSQL中有一个表,我知道将其加载到pandas.Dataframe
。
我知道,odo
可用于将pandas.DataFrame
转换为dask.dataframe。
但
这不是延迟操作:这样的转换强制将整个PostgeSQL表加载到内存中,这很糟糕。我更喜欢逐个读取项目或大块读取项目。怎么做?
答案 0 :(得分:0)
至于MongoDB,我创建了以下解决方案: https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567
主要思想是创建一个目标名称包,然后将这些参数传递给loader。