我希望了解dask分布式如何从命令行处理任务的分布。
我有以下结构:
实际上,我提供给client.map函数的是一个字符串列表,这些字符串是s3资源的指针。每个工作人员都负责连接到s3并运行所有代码以获取文件内容,转换记录,对其进行过滤并写回s3。
当s3中有1800个文件时,需要花费几分钟的时间来分发和完成所有操作-这是。当我有18,000条记录时,我无法将任务成功分发给工作人员,而无法使用B=client.map(main, filelist)
之类的命令来运行它们-该命令似乎就在那儿。如果我取消尝试映射的过程,则会得到一些提示,表明它正在腌制一堆东西,但我不知道在30-60分钟内需要腌制什么。
奇怪的是,当我有18,000条记录时,即使我尝试仅分发10条记录,例如使用以下命令B=client.map(main, filelist[:10])
,我也会遇到相同的超时时间。
主要问题: