我的coreos / fleet部署的服务正在消亡,我不知道为什么

时间:2014-08-08 02:34:21

标签: docker coreos

我正在尝试使用fleet在EC2中的一个品牌闪亮的新coreos集群上部署nsqlookupd。这是我的systemd单元文件:

[Unit]
Description=nsqlookupd service
After=docker.service
Requires=docker.service

[Service]
EnvironmentFile=/etc/environment
ExecStartPre=-/usr/bin/docker kill nsqlookupd
ExecStartPre=-/usr/bin/docker rm nsqlookupd
ExecStart=/usr/bin/docker run -d --name=nsqlookupd -e BROADCAST_ADDRESS=$COREOS_PUBLIC_IPV4 -p 4160:4160 -p 4161:4161 mikedewar/nsqlookupd
ExecStartPost=/usr/bin/etcdctl set /nsqlookupd_broadcast_address $COREOS_PUBLIC_IPV4
ExecStop=/usr/bin/docker stop -t 1 nsqlookupd
ExecStopPost=/usr/bin/etcdctl rm /nsqlookupd_broadcast_address

如果我只运行ExecStart命令,我已经验证了容器正常工作。我的docker日志看起来像

~ $ docker logs nsqlookupd
2014/08/08 02:23:58 nsqlookupd v0.2.29-alpha (built w/go1.2.2)
2014/08/08 02:23:58 TCP: listening on [::]:4160
2014/08/08 02:23:58 HTTP: listening on [::]:4161

我的fleetctl期刊看起来像

$ fleetctl journal nsqlookupd.service
-- Logs begin at Sun 2014-08-03 12:49:00 UTC, end at Fri 2014-08-08 02:30:06 UTC. --
Aug 08 02:23:57 ip-10-147-9-249 systemd[1]: Starting nsqlookupd service...
Aug 08 02:23:57 ip-10-147-9-249 docker[6140]: Error response from daemon: No such container: nsqlookupd
Aug 08 02:23:57 ip-10-147-9-249 docker[6140]: 2014/08/08 02:23:57 Error: failed to kill one or more containers
Aug 08 02:23:57 ip-10-147-9-249 docker[6148]: Error response from daemon: No such container: nsqlookupd
Aug 08 02:23:57 ip-10-147-9-249 docker[6148]: 2014/08/08 02:23:57 Error: failed to remove one or more containers
Aug 08 02:23:57 ip-10-147-9-249 etcdctl[6157]: 54.198.93.169
Aug 08 02:23:57 ip-10-147-9-249 systemd[1]: Started nsqlookupd service.
Aug 08 02:23:57 ip-10-147-9-249 docker[6155]: 0fce4465f61c092541ba9d4c4e89ce13c4d6bedc096519034ed585d7adb5e0d7
Aug 08 02:23:59 ip-10-147-9-249 docker[6194]: nsqlookupd

两者看起来都很好。但是容器安静地死了,我的fleetctl列表单元给出了

$ fleetctl list-units
UNIT                STATE       LOAD    ACTIVE          SUB     DESC                MACHINE
nsqlookupd.service  launched    loaded  deactivating    stop    nsqlookupd service  1320802c.../10.147.9.249

正在运行docker images有点担心:

$ docker images
REPOSITORY             TAG                 IMAGE ID            CREATED             VIRTUAL SIZE
<none>                 <none>              8ef9d8f9d18d        9 minutes ago       710 MB
mikedewar/nsqadmin     latest              432af572bda8        2 days ago          710 MB
mikedewar/nsqd         latest              00bd4e474964        2 days ago          710 MB
<none>                 <none>              adf0ed97208e        3 weeks ago         710 MB
mikedewar/nsqlookupd   latest              2219c0e783d9        3 weeks ago         710 MB
<none>                 <none>              35d2212f8932        3 weeks ago         710 MB
mikedewar/nsq          latest              f9794fe056e1        3 weeks ago         710 MB
busybox                latest              a9eb17255234        9 weeks ago         2.433 MB
zmarcantel/cassandra   latest              b1168b45b4f8        4 months ago        738 MB

因为我在过去3周内经常更新mikedewar / nsqlookupd。也许那是我第一次把东西推到码头中心的时候?我很想知道我正在使用的图像是最新的图像。我已尝试docker rmi mikedewar/nsqlookupd后跟docker pull mikedewar/nsqlookupd,但CREATED列仍然说它是在3周前创建的。

我不知道这是否有用,但ExecStopPost=/usr/bin/etcdctl rm /nsqlookupd_broadcast_address命令似乎有效 - 车队日志中的etcdctl日志行表明我设法将密钥设置为我的IP,但是容器死后我无法从etcd获取该密钥。

任何关于在哪里寻找线索的帮助,或任何想法为什么会发生这种情况将不胜感激!很明显,我对这类事情很陌生......

1 个答案:

答案 0 :(得分:10)

您不应该在单元文件中以分离模式运行docker容器。您的execstart包含它:ExecStart=/usr/bin/docker run -d。这将导致systemd认为该进程立即退出,因为它已分叉到后台。

至于管理版本,如果你想绝对确定你获得了最新的副本,你应该标记你的容器,然后拉出mikedewar / nsqlookupd:1.2.3。您可以在每个车队单元文件中增加此值。