我尝试使用SSD以提高蜂巢性能。 SSD是,具有高速随机访问。利用尝试更改要在mapreduce代码中执行的配置单元。 现在我的想法是简化或消除洗牌步骤。 这有可能吗?如果可能,你在哪里做改变?
PS。告诉我们当hive运行时会发生什么,临时文件存储在哪里。
我不太懂英语。对不起 谢谢。
答案 0 :(得分:0)
理论上,您可以编写自己的分区程序并在reducer上发送数据,reducer运行在映射器运行的同一节点上。 这样做你永远不会得到输出文件“unsplitted”,所以避免改组不是一个好主意。
如果您有像SSD这样的快速磁盘,则可以增加块大小。 通常计算块大小以使寻道时间不大于整个块传输的1%。
这也会减少使用的映射器的数量,因为分割的数量很少。有点,更少的映射器也意味着更少的改组。 使用中间文件的压缩文件格式,也可以加快工作速度。