我有一个运行嵌入式Linux的系统,它连续运行至关重要。基本上它是一个与传感器通信并将数据中继到数据库和Web客户端的过程。
如果发生崩溃,我该如何自动重启应用程序?
此外,有几个线程正在进行轮询(例如套接字和uart通信)。如何确保没有线程挂断或意外退出?有一个易于使用的看门狗是线程友好的吗?
答案 0 :(得分:6)
它的要点是:
有许多不同的方法可以做到#1,但有两种想法是:
侦听UNIX域套接字,以处理状态请求。然后,外部应用程序可以查询应用程序是否仍然正常。如果在某个超时期限内没有响应,那么可以假设被查询的应用程序已经死锁或已经死亡。
定期触摸具有预选路径的文件。外部应用程序可以查看文件的时间戳,如果它是陈旧的,那么它可以假定应用已经死亡或死锁。
对于#2,杀死先前的PID并使用fork + exec启动新进程是典型的。您还可以考虑将“连续”运行的应用程序放入运行一次的应用程序中,然后使用“cron”或其他应用程序连续重新运行该单次运行的应用程序。
不幸的是,看门狗定时器和摆脱僵局是非常重要的问题。我不知道有什么通用的方法可以做到这一点,我见过的少数几个非常难看,而且不是100%没有bug。但是,tsan可以帮助检测静态分析中潜在的死锁情况和其他线程问题。
答案 1 :(得分:6)
您可以按照fork
所述的waitpid
和alarm
无缝重启您的流程。它不需要任何重要资源,因为操作系统将共享内存页面。
只留下检测挂起进程的问题。您可以使用Michael Aaron Safyan指出的任何解决方案,但更简单的解决方案是重复使用alarm
系统调用,让信号终止进程(相应地使用sigaction)。只要你一直打电话{{1}}(即只要你的程序正在运行)它就会继续运行。一旦你不这样做,信号就会激发
这样,就不需要额外的程序,只使用便携式POSIX。
答案 2 :(得分:1)
您可以创建一个 CRON作业来检查该进程是否正在运行 start-stop-daemon 。
答案 3 :(得分:1)
使用此脚本运行应用程序
#!/bin/bash
while ! /path/to/program #This will wait for the program to exit successfully.
do
echo “restarting” # Else it will restart.
done
您也可以将此脚本放在/etc/init.d/
的其他内容中作为守护程序启动