在我的Node.JS应用程序上,我正在使用群集来利用我的多核CPU。我正在使用节点的mariasql库与我的数据库进行通信。由于node-mariasql
库不支持池,我使用第三方 - generic-pool来维护连接池。
我注意到,在未捕获的异常导致其中一个子集群重新启动后,只要主线程中的连接关闭,我们的CPU使用率就会上升到100%。
每当子集群重新启动时,我都会破坏所有MySQL连接。
节点版本 - v4.2.2
MariaDB版本 - v10.0.15
node-mariasql版本 - v0.2.5
可重复的代码 - https://github.com/bsurendrakumar/node-simplex/
var pool = poolModule.Pool({
name: 'mariadb',
create: function(callback) {
var client = new mSQLClient();
client.connect(dbConfig);
client.on('error', function(err) {
callback(err, null);
});
client.on('ready', function() {
callback(null, client);
});
},
destroy: function(client) {
if(cluster.isMaster) {
console.log('Destroying / ending master thread ID -', client.threadId);
}
if(isDraining) {
client.destroy();
} else {
client.end();
}
},
max: dbConfig.maxConn,
min: dbConfig.minConn,
idleTimeoutMillis: dbConfig.idleTimeout
});
console.log('------------------------------------');
console.log('Master Process ID:', process.pid);
console.log('------------------------------------\n\n');
console.log('Creating an extra DB connection on the master thread.\n\n');
getCountries();
// Create a worker for each CPU
for (var i = 0; i < cpuCount; i += 1) {
cluster.fork();
}
// Restarting the thread if something exits...
cluster.on('exit', function () {
cluster.fork();
});
// Handle uncaught exceptions...
process.on('uncaughtException', function (err) {
try {
console.log('\n--------------');
console.log(err);
// Stop the HTTP Server
console.log('\n--------------');
console.log('Encountered uncaught exception!');
console.log('Stopping HTTP server ...');
if(httpServer) {
httpServer.close();
}
console.log('Stopped HTTP server, performing cleanup ...');
// Call the cleanup function
cleanUp(function() {
// Exit!!
console.log('Cleanup done!');
restartProcess();
});
} catch (e) {
console.log(e);
restartProcess();
}
function restartProcess() {
console.log('Restarting process ...');
process.exit(1);
}
});
function cleanUp(cbMain) {
isDraining = true;
if(pool.hasOwnProperty('_inUseObjects')
&& Array.isArray(pool._inUseObjects)
&& pool._inUseObjects.length > 0) {
let inUseObjs = pool._inUseObjects;
let inUseObjsLen = pool._inUseObjects.length;
for(let i = 0; i !== inUseObjsLen; ++i) {
inUseObjs[0].destroy();
pool.release(inUseObjs[0]);
}
}
pool.drain(function() {
pool.destroyAllNow(function() {
return cbMain();
});
});
}
池中的最小连接数设置为5.所有配置都可以在here下找到。因此,当服务器启动时,通用池将启动与MySQL的5个连接,并将它们保存在池中。
池中对象的idleTimeout
已设置为120秒。这意味着如果池中有超过5个(因为5个是最小值)对象,并且其中一个对象在最后120秒内没有被使用,它将被销毁。
在服务器启动时,我正在对我们的国家/地区模型进行简单调用以获取国家/地区列表。此代码为here。这将建立与数据库的新连接,因此现在池中将有一个6 SQL连接,其中一个将在120秒后清除。
以下是一步一步的流程,我认为问题在于我们使用mariasql库 -
使用 - ls -l /proc/20584/fd
查看进程使用的文件描述符。记下套接字连接。这个的输出看起来像这样 -
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 12 -> socket:[2469914]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 13 -> socket:[2469917]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 14 -> socket:[2468106]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 15 -> socket:[2468109]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 17 -> socket:[2467206]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 18 -> socket:[2467208]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 19 -> socket:[2467210]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 2 -> /dev/tty
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 20 -> socket:[2467212]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 21 -> socket:[2467214]
lrwx------ 1 abijeet abijeet 64 Jun 9 19:24 22 -> socket:[2467306]
复制一些套接字号码,例如 2467212 ,然后运行lsof | grep 2467212
。您会注意到这些是与MySQL服务器的连接。输出应该是这样的 -
node 20584 abijeet 20u IPv4 2467212 0t0 TCP localhost:57092->localhost:mysql (ESTABLISHED)
V8 20584 20585 abijeet 20u IPv4 2467212 0t0 TCP localhost:57092->localhost:mysql (ESTABLISHED)
V8 20584 20586 abijeet 20u IPv4 2467212 0t0 TCP localhost:57092->localhost:mysql (ESTABLISHED)
V8 20584 20587 abijeet 20u IPv4 2467212 0t0 TCP localhost:57092->localhost:mysql (ESTABLISHED)
V8 20584 20588 abijeet 20u IPv4 2467212 0t0 TCP localhost:57092->localhost:mysql (ESTABLISHED)
转到http://127.0.0.1:3000/api/v1/country/list使服务器崩溃。这将导致其中一个子进程崩溃。每当发生未捕获的异常时,我会进行一些清理并退出。然后我再分叉另一个进程取代刚被杀死的进程。清理包括 -
Destroying / ending master thread ID - 4984
strace -o log.txt -eepoll_ctl,epoll_wait -p 20584
。请注意,您可能需要安装 strace 。此命令记录Node.JS进程发出的所有epoll_ctl, epoll_wait
系统调用,并将其放在名为 log.txt 的文件中,并将其放在当前工作目录中。打开 log.txt 文件,您会发现类似这些的日志 -
epoll_wait(5, {{EPOLLIN|EPOLLHUP, {u32=16, u64=16}}}, 1024, 847) = 1
epoll_ctl(5, EPOLL_CTL_DEL, 16, 7ffe441aa850) = -1 EBADF (Bad file descriptor)
epoll_wait(5, {{EPOLLIN|EPOLLHUP, {u32=16, u64=16}}}, 1024, 845) = 1
epoll_ctl(5, EPOLL_CTL_DEL, 16, 7ffe441aa850) = -1 EBADF (Bad file descriptor)
epoll_wait(5, {{EPOLLIN|EPOLLHUP, {u32=16, u64=16}}}, 1024, 843) = 1
epoll_ctl(5, EPOLL_CTL_DEL, 16, 7ffe441aa850) = -1 EBADF (Bad file descriptor)
此处的文件描述符为 16 ,如果您将其与之前的ls -l /proc/20584/fd
和lsof | grep 2467212
联系在一起,您会发现这属于刚刚关闭的MySQL连接。
这让我相信某个地方,即使释放了与MySQL的连接,也有一个挂在那里的文件描述符,仍在使用中。我在论坛上发现了各种类似问题的线程 -
答案 0 :(得分:0)
您好,这已经发生在我身上了…就我而言,我的服务器内存不足...而且我的数据库里满是帖子。那就是……他有很多关于两种解码的信息。 (MyISAM和Innodb)在同一银行中...我发现的解决方案是导出此数据库...这是一个备份...仅通过确定单一编码(Innodb)可以从头开始创建数据库。然后一点一点地检查所有表和可能的错误来进行导入。
我做的另一个选择是删除旧的文件并将其放入另一个数据库中。成为另一个站点的一部分。 数据集成将通过两个站点之间的链接进行。
发送新闻! 希望对您有所帮助! 坚强的拥抱。祝你好运!