我有一台带有4台r3.4Xlarge机器的EMR设置(总共128GB(32G /节点)和1000GB(250GB)SSD分配给alluxio)。
我已经加载了大约650GB的ORC数据。但我可以看到3名工人分配了80%以上的空间,但其中一名工人只使用了1%。
如何在所有员工之间均匀分配数据?
提前致谢
答案 0 :(得分:2)
通常,当Alluxio客户端从UFS读取数据时,客户端会将数据缓存到本地工作者。如果数据分配存在很大的不平衡,则可能表明任务分配不均匀。
有一个Alluxio客户端配置参数,可以在将数据缓存到Alluxio时更改默认行为。例如,您可以设置:
alluxio.user.file.write.location.policy.class=alluxio.client.file.policy.RoundRobinPolicy
到change the write location policy进行循环,这将使数据更均匀地分布在工作进程中。此配置参数将必须在Alluxio客户端上更新,这取决于您使用的特定框架。