应用错误收集

直到几天前，我还有一个有效的Hadoop集群。我复制了一个非常大的数据集并最大化了我的所有数据节点。运行任何类型的HDFS命令都会给我：

# you don't need this input as you already has generator
source = ['a','b','c','d','e','f','g','h','i','j']
# turn it to generator
g = (i for i in source)
# create empty list
lines = []
# put what you want inside
for item in g:
    if item=='c': # this can be replaced with .startswith()
        lines.append(item)
        for i in range(4):
            lines.append(next(g))

In : lines
Out: ['c', 'd', 'e', 'f', 'g', 'h']

所以我不能删除占用空间的文件。我尝试擦除HDFS清除as described here但我没有在hdfs-site.xml中看到任何tmp属性。我尝试将复制因子从3减少到1，但这似乎没有改变任何东西。

我正在使用Cloudera CDH v5.6.0运行Hadoop v2.6.0。

Hadoop / HDFS：连接被拒绝，所有数据节点都达到100％

0 个答案: