有趣的问题与Amazon EC2上的lighttpd有关

时间:2010-05-05 13:12:54

标签: amazon-ec2 amazon lighttpd

今天出现了这个问题,我不知道发生了什么。请分享你的想法。

我有1个EC2数据库服务器(MYSQL + NFS文件共享+ Memcached)。

我有3个EC2 Web服务器(lighttpd),它将NFS文件夹安装在数据库服务器上。

几个月来一切顺利,但突然间出现了一个有趣的现象。

每隔8分钟到10分钟,PHP文件将无法访问。这将持续约1分钟,然后恢复正常。像.html文件这样的普通文件不受影响。所有服务器都同时具有相同的问题。

我花了一整天的时间来分析原因。最后,我发现问题出现的时候,lighttpd的文件描述符突然增加了很多。


我使用ls /proc/1234/fd | wc -l来检查fd的数量。

fd的#在正常时间约为250。但是,当问题出现时,它将升至1500,然后恢复正常。

听起来很有趣,对吗?你知道发生了什么吗?

======================== 其中一个Web服务器的CPU图。 alt text http://pencake.images.s3.amazonaws.com/4be1055884133.jpg

1 个答案:

答案 0 :(得分:1)

思想:

  • 查看dmesg输出。
  • 跳起来的文件描述符的数量听起来就像阻塞一样,包括处理与lighttpd / PHP的连接,这会阻止阻塞条件结束。
  • 当您说PHP文件无法访问时,您的意思是该文件丢失了吗?或者PHP脚本在执行期间停止或? lihttpd日志文件在调用此PHP脚本时发生了什么。 lighttpd中还有其他提示吗?
  • 进程/用户的最大文件描述符是什么?
  • 我和其他人不时在EC2实例上有奇怪的网络行为。给我们更多细节。也许设置一些额外的实例之间的连接监控。考虑将问题实例移动到另一个实例,希望问题神奇地消失。 (在黑暗中拍摄。)

最后......

  • DOS攻击?我怀疑它 - 它会离线还是没有。在调试过程中,它太早了方式,你可能会对某些人的恶意情绪进行推断。