我们正在尝试通过实现cgroup来限制emr集群中用户的内存和cpu使用率。
我们在cgroup下创建了一个新的users_cg子组,并设置了适当的内存和cpu限制。
但是,当集群中有一些现有进程正在运行并且cgroup服务重新启动时,我们观察到一个特殊的情况 我们观察到的差异很少: 1)即使达到阈值限制,进程也不会被杀死。 2)进程在稍后的时间被杀死,这远远超出了设置的内存限制。
有人遇到过与重启cgconfig服务有关的这类问题吗?
我们需要重新启动cgconfig和cgrules服务,因为我们正在扫描集群中的任何新用户,如果有新用户,我们会将其添加到 users_cg组。
任何见识都将受到高度赞赏。