如何从hdfs获取特定数据?

时间:2014-01-06 09:25:16

标签: hadoop apache-pig hdfs

我需要一些关于以下情况的解释

场景: - >      假设在1000PB的文件中存在世界上每个人的完整记录,我们将该文件转移到HDFS(假设Reflection_factor = 9 bl_size = 128MB)并且该文件分成'n'个块。

假设客户要求我们搜索具有一些独特约束的特定人(Key)。让我们假设此人的数据在第n个块中。

我的问题是MapReduce函数在这种情况下如何工作?是直接读取第n个块还是将第一个节点读取到第n个节点?

2 个答案:

答案 0 :(得分:2)

HDFS是良好的顺序访问,而HBase适合

  • 单一随机选择
  • 按键扫描范围
  • 变量架构

正如@WinnieNicklaus所建议的那样,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。

答案 1 :(得分:1)

此用例是HBase的设计用途。