Mesos:无法获取/更新执行程序的资源统计信息

时间:2018-06-19 08:25:11

标签: docker mesos marathon mesosphere

我们遇到来自mesos-agent的完整日志的问题,其中包含以下消息:

2018-06-19T07:31:05.247394+00:00 mesos-slave16 mesos-slave[10243]: W0619 07:31:05.244067 10249 slave.cpp:6750] Failed to get resource statistics for executor 'research_new-benchmarks_production_testbox-58-1529393461975-1-mesos_slave16' of framework Singularity-PROD: Failed to run 'docker -H unix:///var/run/docker.sock inspect mesos-7560fb72-28d3-4cce-8cb0-de889248cf93': exited with status 1; stderr='Error: No such object: mesos-7560fb72-28d3-4cce-8cb0-de889248cf93

2018-06-19T07:31:09.904414+00:00 mesos-slave16 mesos-slave[10243]: E0619 07:31:09.903687 10251 slave.cpp:4721] Failed to update resources for container b9a9f7f9-938b-4ec4-a245-331122471769 of executor 'hera_listening-api_production_checkAlert-93-1529393402085-1-mesos_slave16-us_west_2a' running task hera_listening-api_production_checkAlert-93-1529393402085-1-mesos_slave16 on status update for terminal task, destroying container: Failed to determine cgroup for the 'cpu' subsystem: Failed to read /proc/14447/cgroup: Failed to open file: No such file or directory

我们正在运行3x ha mesos-master,马拉松框架,奇点框架 - 发生在两个框架中的任务。运行的任务,crons(来自奇点)也运行正常,但我对thouse消息感到困惑。我们有超过600个长跑马拉松任务,每几分钟就有超过30个crons。

Docker版本:18.03.0-ce Mesos版本:1.4.0-2.0.1 Marathon版本:1.4.2-1.0.647.ubuntu1604 奇点版本:0.15.1

使用AWS内核在Ubuntu 16.04上运行的主服务器和从服务器 - 4.4.0-1060-aws

我认为在任务完成后删除了奴隶上的mesos执行器,但是mesos仍然试图从docker获取信息,其中任务没有可见。

有什么想法吗?感谢

1 个答案:

答案 0 :(得分:0)

Marathon是用于永久任务的调度程序框架。尽管任务成功退出,但仍会坚持始终重新安排任务的时间。

我们可以看到health check是其重要功能之一。也许尝试chronos。这是另一个在Apache mesos上运行的框架。