开发人员是否应该通过发布大型数组将Dask用作数据库?如果是这样,建议的工作流程应该做些什么来增加Dask可以访问的ram(除了修改机器本身)?
答案 0 :(得分:2)
默认情况下,dask-worker
进程将分配数据,直到它达到计算机上大约60%的RAM,此时它将开始将最近最少使用的项目溢出到磁盘。
您可以使用--memory-limit
标记限制此行为。
如果您有更多机器要添加到网络中,那么您也可以在这些机器上启动dask-workers并将它们指向中央调度程序
host1$ dask-worker scheduler-address:8786
host2$ dask-worker scheduler-address:8786
host3$ dask-worker scheduler-address:8786
根据您的实际问题
开发人员是否应该通过发布大型数组将Dask用作数据库?
这真是一个判断电话。 Dask是一种工具,可以以多种方式使用。是否应该使用它取决于您的应用程序的需求。