应用错误收集

Hive查询生成需要很长时间才能生成数据集

时间：2012-10-29 15:20:24

标签： hadoop mapreduce hive

我正在尝试对大量数据运行hive查询（几乎是一半的PB），并且这些查询运行映射在内部减少。生成数据集需要很长时间（map reduce to complete）hive和Hadoop可以使用什么优化机制来更快地进行这些查询，我有一个更重要的问题是可用于map reduce的磁盘数量还是in / tmp目录对于更快的地图缩减很重要吗？

1 个答案:

答案 0 :(得分：0)

你没有太多可以做的，但我可以给出一些方向，通常可以用Hive做什么：
您应该选择导致较少混乱的SQL。例如，您可以尝试在可能的情况下导致地图侧连接。您还可以通过导致仅映射查询的方式执行某些操作。
另一种方法是调整减速器的数量 - 有时Hive定义的减速器少得多 - 因此您可以手动设置它以更好地利用您的集群如果要运行多个查询来进行转换 - 您可以在HDFS中为此临时数据定义低复制因子如果我们知道您在做什么，可以提供更多帮助。