我已经建立了一个测试集群 - 四个节点。严重不足(!) - 确定CPU,只有2演出的ram,共享非ssd存储。嘿,它的测试:))
我只是让它运行了三天。没有数据进出......一切都空闲。与opscenter连接。
今天早上,我们发现其中一个节点昨晚凌晨2点左右熄火。操作系统没有下降(响应ping)。那段时间的cassandra日志是:
INFO [MemtableFlushWriter:114] 2014-07-29 02:07:34,952 Memtable.java:360 - Completed flushing /var/lib/cassandra/system/sstable_activity-5a1ff267ace03f128563cfae6103c65e/system-sstable_activity-ka-107-Data.db (686 bytes) for commitlog position ReplayPosition(segmentId=1406304454537, position=29042136)
INFO [ScheduledTasks:1] 2014-07-29 02:08:24,227 GCInspector.java:116 - GC for ParNew: 276 ms for 1 collections, 648591696 used; max is 1040187392
下一个条目是:
INFO [main] 2014-07-29 09:18:41,661 CassandraDaemon.java:102 - Hostname: xxxxx
即。当我们通过opscenter重新启动节点时。
这是否意味着它在GC上崩溃,或者GC完成了什么,还有其他什么东西崩溃了?我应该看一些其他日志吗?
注意:在opscenter eventlog中,我们看到:
7/29/2014, 2:15am Warning Node reported as being down: xxxxxxx
我很欣赏节点功能不足,但是如果完全闲置,它应该不会崩溃,是吗?
使用2.1.0-rc4 btw。
答案 0 :(得分:4)
我的猜测是你的节点被OOM杀手关闭了。因为Linux系统提交ram,当系统上存在很大的压力时,它可能会关闭应用程序以恢复操作系统的内存。使用2G总RAM可以很容易地发生这种情况。