在Accumulo中保留数据位置

时间:2016-04-05 21:44:35

标签: accumulo

最近我一直在关注我的Accumulo集群上的数据位置,我注意到它似乎随着时间的推移而恶化。我的直觉告诉我,这是由于主人重新分配平板电脑以帮助平衡群集,特别是在我完成滚动重启之后。

我正在考虑设置手动主要压缩以对所有表进行隔夜操作,以使此数据位置尽可能接近100%。这是你们之前做过的事情还是有更好的方法来解决这个问题?

1 个答案:

答案 0 :(得分:1)

只要您继续向Accumulo写入更多数据,您就会得到一个“不完全100%”的数据。地方测量。当您编写更多数据时,您将导致平板电脑分裂:一个平板电脑变为两个。通常,在拆分后,其中一个孩子将被转移到另一个服务器,因为它使Accumulo试图维护的平板电脑的分发无效。在分割的儿童平板电脑自动进行主要压缩之前,您将无法获得任何地点。这实际上是Accumulo可以做出关于平衡平板电脑的更明智决策的一个领域,有利于HDFS地区,而不仅仅是在平板电脑服务器上分发平板电脑(但这将是一项重大工作)。

对于你的情况,考虑在一夜之间对cron进行一次重大压缩(或者你的&#34;非高峰期&#34;时间),这当然不是荒谬的。我们甚至可能做一些聪明的事情,并创建一个工具来判断所有平板电脑的位置,并实际上削减低于某个地点阈值的平板电脑数量(例如,<90%本地),这将有助于避免重新压缩数据已经是本地的。

如果您有兴趣,请随时订阅并发送邮件至user@accumulo.apache.org;我很乐意在那里提供更详细的帮助。