我正在尝试对大量数据运行hive查询(几乎是一半的PB),并且这些查询运行映射在内部减少。生成数据集需要很长时间(map reduce to complete)hive和Hadoop可以使用什么优化机制来更快地进行这些查询,我有一个更重要的问题是可用于map reduce的磁盘数量还是in / tmp目录对于更快的地图缩减很重要吗?
答案 0 :(得分:0)
你没有太多可以做的,但我可以给出一些方向,通常可以用Hive做什么:
您应该选择导致较少混乱的SQL。例如,您可以尝试在可能的情况下导致地图侧连接。您还可以通过导致仅映射查询的方式执行某些操作。
另一种方法是调整减速器的数量 - 有时Hive定义的减速器少得多 - 因此您可以手动设置它以更好地利用您的集群
如果要运行多个查询来进行转换 - 您可以在HDFS中为此临时数据定义低复制因子
如果我们知道您在做什么,可以提供更多帮助。