目前,我正在学习Hive,遇到了一个名为“ Bucketing”的主题,该主题用于提高任何项目的性能。 在座的任何人都可以向我解释在什么情况下应该进行铲斗吗?如何定义桶数? 我的一位前辈告诉我,我们不能在项目/文件系统数据中使用任何存储桶。因此,在这种情况下,如果我们没有大量存储桶,将有助于提高性能或延迟。
这是一种方法,假设我们有非常大量的数据,并且我们使用分区和存储桶来快速获取数据。在存储桶时,它将去搜索每个存储桶(如果使用了大量存储桶) )?这会导致数据获取过程变慢吗?
请分享您对上述知识的了解。学习愉快!:)