Question

前段时间我发现我们的每个数据节点都以~10M / s的累计速度不断读取磁盘。我用iotop util。

找到了它

到目前为止，我做了什么来诊断它：

我试图阻止群集上的不同服务，但只有在我完全停止hdfs服务时才会停止
我检查了数据节点的日志，但每1-2分钟只能看到一些HDFS_WRITE操作，而不是读取数据。我当然在空闲时间检查了

我们系统的一些信息：

我们现在使用的是CDH发行版，5.8，但问题是在几个版本之前开始的
当时在YARN没有正在运行的工作
这个问题在这里持续了好几个月，而且之前没有这个问题

我现在最担心的是CDH的审计程序。不幸的是，我找不到关于这些过程管理的任何好文件。

以下是有关ps -ef输出的数据节点进程的信息：

hdfs     58093  6398 10 Oct11 ?        02:56:30 /usr/lib/jvm/java-8-oracle/bin/java -Dproc_datanode -Xmx1000m -Dhdfs.audit.logger=INFO,RFAAUDIT -Dsecurity.audit.logger=INFO,RFAS -Djava.net.preferIPv4Stack=true -Dhadoop.log.dir=/var/log/hadoop-hdfs -Dhadoop.log.file=hadoop-cmf-hdfs-DATANODE-hadoop-worker-03.srv.mycompany.org.log.out -Dhadoop.home.dir=/opt/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop -Dhadoop.id.str=hdfs -Dhadoop.root.logger=INFO,RFA -Djava.library.path=/opt/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop/lib/native -Dhadoop.policy.file=hadoop-policy.xml -Djava.net.preferIPv4Stack=true -server -Xms1073741824 -Xmx1073741824 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+CMSParallelRemarkEnabled -XX:OnOutOfMemoryError=/usr/lib/cmf/service/common/killparent.sh -Dhadoop.security.logger=INFO,RFAS org.apache.hadoop.hdfs.server.datanode.DataNode

我会非常感谢有关某个问题的任何线索。

Hadoop集群中的每个数据节点都在不断读取磁盘

0 个答案: