如何找出100%的Node.js服务器CPU的原因?

时间:2014-06-16 11:25:56

标签: node.js socket.io cpu strace

我正在使用socket.io运行Node.js服务器。这是简单的聊天服务器。已经2年了,所以软件版本已经很老了,所以我最近更新了它们。更新后,服务器频繁消耗CPU 100%。它已经运行了2年,所以我认为原因不是应用程序代码,但我无法找出问题所在。

在我更新之前:

  • Node.js 0.8.14
  • socket.io 0.9.16
  • 表示2.5.2

现在我正在使用:

  • Node.js 0.10.28~0.11.13(试过两个)
  • socket.io 1.0.1
  • express 4.1.1

我已尝试过基准但我无法重现。我发现模板渲染速度很慢,但我的聊天服务器是针对移动应用程序的,所以它不会大量使用html页面。只有管​​理页面使用模板引擎,但是当我没有看到管理页面时,CPU 100%就会发生。

使用strace,我得到了这个:

strace -r -p 32224 -c
% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
 16.91    0.003417          35        97           futex
 14.47    0.002923           8       347        72 epoll_ctl
 14.10    0.002848          20       144           write
 11.32    0.002286          15       152           read
  6.27    0.001266          18        70           close
  5.77    0.001165          19        61        61 connect
  5.53    0.001117           6       183           clock_gettime
  5.20    0.001051         117         9           munmap
  4.65    0.000940           5       173           gettimeofday
  4.19    0.000846          14        61           socket
  3.72    0.000752           6       122           ioctl
  3.36    0.000679          12        58           epoll_wait
  2.34    0.000473           7        72           getsockopt
  1.95    0.000394          56         7           mmap
  0.22    0.000045          23         2           open
------ ----------- ----------- --------- --------- ----------------
100.00    0.020202                  1558       133 total

但是,我不知道如何分析这份报告。 epoll_ctl似乎被事件循环使用,而epoll_ctl的错误可能是由连接错误引起的,对吧?我发现syscall connect用于套接字连接,但我不能再进一步了。

这个strace报告是2分钟。没有那么多用户。那个时候只有2~5个用户。

我可以使用报告找出原因吗?或者我是否必须找到其他方法进行调试?

1 个答案:

答案 0 :(得分:0)

V8 Profiler可以输出可以在Chrome分析标签中读取的报告。如果你使用PM2和Keymetrics,那真的很容易。只需安装v8-profiler和pmx模块即可。确保在脚本中需要pmx模块,然后通过Keymetrics站点开始分析。您始终可以单独使用V8 Profiler来获取相同的报告。虽然这是一个更多的工作。