应用错误收集

时间：2014-01-06 09:25:16

标签： hadoop apache-pig hdfs

我需要一些关于以下情况的解释

场景： - ＆GT; 假设在1000PB的文件中存在世界上每个人的完整记录，我们将该文件转移到HDFS（假设Reflection_factor = 9 bl_size = 128MB）并且该文件分成'n'个块。

假设客户要求我们搜索具有一些独特约束的特定人（Key）。让我们假设此人的数据在第n个块中。

我的问题是MapReduce函数在这种情况下如何工作？是直接读取第n个块还是将第一个节点读取到第n个节点？

答案 0 :(得分：2)

HDFS是良好的顺序访问，而HBase适合

正如@WinnieNicklaus所建议的那样，如果您正在寻找随机访问，您应该考虑将数据加载到HBase中。

答案 1 :(得分：1)

此用例是HBase的设计用途。