我想知道如果在Hadoop Map Reduce中使用这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人向我提供hadoop中基础数据结构的详细信息。
答案 0 :(得分:2)
HDFS是Hadoop的默认底层存储平台。 它就像任何其他文件系统一样 - 它不关心文件的结构。它只能确保文件以冗余方式保存并可快速检索。
因此,用户可以使用您喜欢的任何结构来存储文件。
Map Reduce程序只是将输入的文件数据作为输入。不一定是整个文件,但它的一部分取决于InputFormats等。然后Map程序可以制作 以任何想要的方式使用数据。
'Hive' - 另一方面处理TABLES(列/行)。您可以使用Hive-QL以类似SQL的方式查询它们。
答案 1 :(得分:0)
感谢大家
我得到了我的问题的答案。底层HDFS使用块作为存储单元,其详细描述在下面的书和网络流概念中提到。