直到几天前,我还有一个有效的Hadoop集群。我复制了一个非常大的数据集并最大化了我的所有数据节点。运行任何类型的HDFS命令都会给我:
# you don't need this input as you already has generator
source = ['a','b','c','d','e','f','g','h','i','j']
# turn it to generator
g = (i for i in source)
# create empty list
lines = []
# put what you want inside
for item in g:
if item=='c': # this can be replaced with .startswith()
lines.append(item)
for i in range(4):
lines.append(next(g))
In : lines
Out: ['c', 'd', 'e', 'f', 'g', 'h']
所以我不能删除占用空间的文件。我尝试擦除HDFS清除as described here但我没有在hdfs-site.xml中看到任何tmp属性。我尝试将复制因子从3减少到1,但这似乎没有改变任何东西。
我正在使用Cloudera CDH v5.6.0运行Hadoop v2.6.0。