Map Reduce:使用的基础数据结构

时间:2014-02-24 11:34:51

标签: hadoop map reduce

我想知道如果在Hadoop Map Reduce中使用这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人向我提供hadoop中基础数据结构的详细信息。

2 个答案:

答案 0 :(得分:2)

HDFS是Hadoop的默认底层存储平台。 它就像任何其他文件系统一样 - 它不关心文件的结构。它只能确保文件以冗余方式保存并可快速检索。

因此,用户可以使用您喜欢的任何结构来存储文件。

Map Reduce程序只是将输入的文件数据作为输入。不一定是整个文件,但它的一部分取决于InputFormats等。然后Map程序可以制作 以任何想要的方式使用数据。

'Hive' - 另一方面处理TABLES(列/行)。您可以使用Hive-QL以类似SQL的方式查询它们。

答案 1 :(得分:0)

感谢大家

我得到了我的问题的答案。底层HDFS使用块作为存储单元,其详细描述在下面的书和网络流概念中提到。

所有细节都可以在Hadoop的第三章:权威指南中找到。