我正在将Apache Druid与HDFS的容器化部署一起使用在我的测试台中。在稳定运行5天后,我看到其中一个HDFS工作器在HDFS UI上报告为已失效。在这个“死”工作者的容器内,我看到该进程仍然有效,但是在CLOSE_WAIT状态下有成千上万的TCP连接。我看到在HDFS JIRA页面上针对不同版本的HDFS提出了很多问题。
HDFS版本:2.7.5。
容器ulimit:最多1048576个文件。
Druid是唯一与HDFS接口的组件。没有编写将无法调用close()的自定义代码。
有人看到过类似的问题并且可以解决吗?