MapReduce作业所花费的时间

时间:2013-03-21 17:56:22

标签: hadoop mapreduce apache-pig hdfs distributed-computing

我是hadoop和mapreduce的新手。我在hadoop Mapreduce中运行数据时遇到问题。我希望结果以毫秒为单位给出。有什么办法可以在几毫秒内执行我的Mapreduce作业吗? 如果没有那么hadoop mapreduce在完全分布式多集群(5-6个节点)中可以采用的最小时间是多少。 在hadoop mapreduce中分析的文件大小约为50-100Mb 程序是用Pig.Any suggesstions编写的?

2 个答案:

答案 0 :(得分:1)

对于adhoc实时查询数据,请使用ImapalaApache Drill(WIP)。 Drill基于Google Dremel

Hive作业转换为MapReduce,因此Hive也是批量导向的,而不是实时的。然而,很多工作正在改进Hive(12)的性能。

答案 1 :(得分:0)

这是不可能的(afaik)。 hadoop不是第一个实时的东西。它最适合批量作业。 mapreduce框架需要一些时间来接受和设置工作,这是你无法避免的。我认为让超高端机器设置一个hadoop集群是一个明智的决定。此外,框架必须在实际开始工作之前做一些事情,例如,创建数据的逻辑分割。