Hadoop mapfile多索引

时间:2014-08-22 13:06:21

标签: hadoop io

具有以下数据集输入格式:TextA TextB

是否可以使用单个hadoop MapFile在第一列(TextA)和第二列(TextB)上提供索引(二进制搜索支持)?

这个想法是拥有相同的数据文件夹,但使用不同的索引文件。

1 个答案:

答案 0 :(得分:0)

您不能,数据文件必须按键排序。

如果您尝试可视化MapFile的实现方式,您将发现它无法正常工作:

  • 大数据文件按键排序
  • 索引文件包含N个正在加载内存的键
  • 执行get时,会找到索引文件中的两个相邻键。然后在大数据文件中完成二进制搜索(这就是必须按键排序的原因)

您如何通过单个文件满足排序要求?