我们在EC2上有一个带有6个区域服务器的小型Hbase群集。最近我们发现其中一个列系列中的数据对我们来说真的没那么有用,并决定放弃它。此特定列系列占用磁盘空间的50%以上。 我们更改了表,删除了列族并运行了主要的压缩。 我们还对' -ROOT进行了重大压缩 - '和“.META。'表。 但是总DFS文件大小仍然没有减少? 我们在这里遗漏了什么。 任何帮助/指针将不胜感激。
问候。
答案 0 :(得分:1)
知道了! 这是Hbase中的一个错误。他们没有从HDFS中删除文件管理器。我们必须从hadoop文件系统中找到并删除文件。
答案 1 :(得分:1)
只是要添加另一个要检查的东西 - 至少在Hbase 0.90.4中,删除表会从HDFS中删除文件但是.logs目录的内容不一定。
例如,运行hadoop fs -du /yourHbaseDirInDFS
,您将看到.logs目录中仍有一大块数据。在重新启动HBase群集之前,这似乎不会消失。或者我想你可以手动删除日志文件,但是让hbase这样做似乎更好。