Hadoop元数据类型

时间:2014-12-18 22:38:09

标签: hadoop metadata

我在实施Hadoop之前正在研究Hadoop的元数据功能。 Hadoop元数据一词似乎有多重含义。我将列出我对该术语的三种理解。但我想回答一个问题,“Hadoop对其中的数据有什么元数据?”

  1. 名称节点元数据 - 存在什么,以便名称节点知道数据块的位置,数据块由哪个文件组成...基本上是Hadoop知道哪些数据在哪里。 (尽管有必要,这似乎并不像元数据消费者那样有价值。)
  2. 文件元数据 - 来自文件系统shell。在哪里我能得到 权限number_of_replicas userid groupid filesize modification_date modification_time filename
  3. HCatalog - (不完整的理解)存储用户通过Hive和Pig之类的东西制作的模式或表格信息。然后,我有类似架构的元数据,如果有限,说数据库元数据。
  4. 因此,Hadoop中的元数据对我来说似乎有些支离破碎。我不认为我关心哪些块是名称节点元数据的位置。但Hadoop中是否有足够的元数据来回答如下问题: Hadoop中有哪些数据? 什么用什么数据? 数据什么时候进入Hadoop?

    总结我的问题:Hadoop为元数据消费目的提供了哪些有用的元数据信息?

    感谢。

0 个答案:

没有答案