应用错误收集

时间：2014-02-24 11:34:51

标签： hadoop map reduce

我想知道如果在Hadoop Map Reduce中使用这么大的数据集，那么hadoop使用的数据结构是什么。如果可能的话，请有人向我提供hadoop中基础数据结构的详细信息。

答案 0 :(得分：2)

HDFS是Hadoop的默认底层存储平台。它就像任何其他文件系统一样 - 它不关心文件的结构。它只能确保文件以冗余方式保存并可快速检索。

因此，用户可以使用您喜欢的任何结构来存储文件。

Map Reduce程序只是将输入的文件数据作为输入。不一定是整个文件，但它的一部分取决于InputFormats等。然后Map程序可以制作以任何想要的方式使用数据。

'Hive' - 另一方面处理TABLES（列/行）。您可以使用Hive-QL以类似SQL的方式查询它们。

答案 1 :(得分：0)

感谢大家

我得到了我的问题的答案。底层HDFS使用块作为存储单元，其详细描述在下面的书和网络流概念中提到。

所有细节都可以在Hadoop的第三章：权威指南中找到。