我使用Mesos和Marathon为Flink集群提供高可用性。更详细地讲,我有一个由两个节点组成的集群,每个节点上都安装了docker。我在每个docker上安装了Apache Mesos并配置了马拉松。此外,Flink已在docker上进行了如下配置:
每个节点中的Flink-conf.yaml:
jobmanager.rpc.address: 150.20.11.133
high-availability: zookeeper
high-availability.zookeeper.quorum: 150.20.11.133:2181
mesos.master: 150.20.11.133:5050
mesos.resourcemanager.framework.name: "Flink"
/ usr / local / etc / mesos / masters文件中的母版:
150.20.11.133
保存在/ usr / local / etc / mesos / slaves文件中:
150.20.11.136
我在/ usr / local / etc / mesos中有以下行的zk文件:
zk://150.20.11.133:2181/mesos
Zoo.cfg是这样的:
tickTime=2000
initLimit=10
syncLimit=5
clientPort=2181
dataDir=/var/lib/zookeeper
dataLogDir=/var/log/zookeeper
maxClientCnxns=60
server.1=150.20.11.133:2888:3888
/ etc / default / marathon中的马拉松文件具有以下配置:
export MARATHON_MASTER=zk://150.20.11.133:2181/mesos
export MARATHON_ZK=zk://150.20.11.133:2181/marathon
MESOS_NATIVE_JAVA_LIBRARY=/usr/local/lib/libmesos.so
在这个路径下,/ usr / share / marathon / conf,我有一个“主机名”,“主”和“ zk”文件,它们都已像以前一样配置。
我写了一个docker compose文件来运行Mesos和马拉松,它们运行起来没有任何问题。实际上,我想通过马拉松在Mesos群集上运行Flink程序,因此我在马拉松中创建了一个应用程序,并在Command部分编写了这一行。另外,我为该命令提供了内存,cpu和dist。
/home/flink-1.7.0/bin/mesos-appmaster.sh -Djobmanager.heap.mb=1024 -Djobmanager.rpc.port=6123 -Drest.port=8081 -Dmesos.resourcemanager.tasks.mem=1024 -Dtaskmanager.heap.mb=1024 -Dtaskmanager.numberOfTaskSlots=2 -Dparallelism.default=2 -Dmesos.resourcemanager.tasks.cpus=1
我可以看到该应用程序运行了一段时间,然后运行失败。 “ strerror”中的日志如下:
I0302 13:15:02.353979 347 exec.cpp:162]版本:1.7.0
I0302 13:15:02.364169 353 exec.cpp:236]执行人在代理2dcda09f-eef2-4f11-a9b3-d6d241f8378f-S0中注册
I0302 13:15:02.366767 350 executor.cpp:182]收到了SUBSCRIBED事件
I0302 13:15:02.367733 350 executor.cpp:186]于150.20.11.136订阅执行人
I0302 13:15:02.367945 350 executor.cpp:182]收到启动事件
I0302 13:15:02.369375 350 executor.cpp:679]启动任务mm.2ffc24ff-3ced-11e9-8789-024224b99f73
I0302 13:15:02.379390 350 executor.cpp:499]运行'/home/mesos-1.7.0/build/src/mesos-containerizer启动'
I0302 13:15:02.381211 350 executor.cpp:693]在355处分叉了命令
I0302 13:15:03.460824 349 executor.cpp:994]命令退出,状态为1(pid:355)
I0302 13:15:04.467497 354 process.cpp:926]停止了套接字接受循环
我搜索了很多东西;但仍然无法弄清楚。你能指导我吗?
任何帮助将不胜感激。