我有一个很慢的步骤(合并步骤),它消耗大量内存。我的每台服务器都有20名工作人员。但是在组合器步骤中,每个工作人员需要处理50GB的内存。如果服务器中的所有工作程序都在处理数据,则服务器将没有足够的内存来容纳所有这些数据。如何减少某个特定步骤的工作人员数量。 例如:
import dask.bag as db
# how to set this compute to use only 10 workers per server instead of all of them.
(db.from_sequence(metas, partition_size=1).map(combine_step).compute())
谢谢